数据发掘的常用方法

文过添情 · 2018-12-14 18:10:26

1.神经网络方法

神经网络是基于生理学建立的智能仿生系统模型，具有良好的鲁棒性、自组织性、自顺应性、并行处理、分布存储和高度容错性等特性，非常合适处理数据发掘的成绩，因此，近年来越来越遭到注重。典型的神经网络模型有感知机、BP反向传播模型、函数型网络等。前馈式神经网络模型次要用于分类、预测和形式辨认；Hopfield的团圆模型和延续模型分别用于联想记忆和优化计算的反馈式神经网络模型；ART模型和Koholon模型次要用于聚类的自组织映射。

2.遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局代护方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据发掘中被加以运用。现已成功地开发了一个基于遗传算法的数据发掘工具，应用该工具对两架飞机失事的真实数据库停止了数据发掘实验，结果表明遗传算法是停止数据发掘的有效方法之一。遗传算法的运用还体如今与神经网络、粗糙集等技术的结合上。例如，应用遗传算法优化神经网络结构，在不添加错误率的前提下，删除多余的衔接和隐层单元;用遗传算法和BP算法结合训练神经网络，然后从网络提取规则等。但遗传算法较复杂，较早陷于部分极小的收敛成绩还没有处理。

3.决策树

决策树是一种常用于预测模型的方法，它经过将大量数据有目的地分类，从中找到一些有价值的、潜在的信息。次要优点是描画简单，分类速度快，特别合适于大规模的数据处理。最有影响和最早的决策树方法是著名的基于信息熵的ID3算法。它的次要成绩是:ID3是非递增学习算法; ID3决策树是单变量决策树，复杂概念的表达困难:异性间的互相关系强调不够:抗噪性差。针对上述成绩，出现了一系列的改进算法。

4.粗糙集方法

租糙集实际是研讨不准确、不确定知识的数学工具。粗糙集方法的优点是不需求给出外信息、简化输入信息的表达空间、算法简单而易于操作。粗糙集处理的对象是相似于二维关系表的信息表。关系数据库管理系统和数据仓库管理系统为粗糙集的数据发掘奠定了坚实的基础。但粗糙集的数学基础是集合论，难以直接处理延续的属性，而理想信息表中延续属性是普遍存在的，所以延续属性的团圆化制约了粗糙集实际的适用化。

5.覆盖正例排挤反例方法

覆盖正例排挤反例方法用覆盖一切正例、排挤一切反例来寻觅规则。首先在正例集合中任选一个种子，到反例集合中逐一比较。与字段取值构成的选择子相容则舍去，相反则保留。按此思想循环一切正例种子，将得到正例的规则，即选择子的合取式。

6.统计分析方法

在数据库字段项之间存在两种关系，函数关系（能用函数公式表示的确定性关系）和相关关系(不能用函数公式表示，怕不函数关系法即应用统计学原理对数据库中的但仍是关确定性关系)，对它们的分析可采用统计学方法，即应用统计学原理对数据库中的信息停止分析，次要内容引见如下：

7.模糊集方法

模糊集方法是应用模糊集合实际对实践成绩停止模期评判、模糊决策、模糊形式辨认和模糊聚类分析。系统的复杂性越高，模糊性越强，普通模糊集合实际是用从属度来描画模糊事物的特性。

8.离群点检测

离群点又称异常点、孤立点，离群点检测的义务是辨认特征分明不同于其他数据的观测值，离群点检测算法的目的是发现真正的离群点，同时避免将正确的对象标注为离群点。

离群点检测的定义如下:给定一个有N个数据点或对象的数据集和希冀的高群点数K，找出与数据集中共余数据分明不同的、异常的或不分歧的前K个对象。发掘离群点成绩可以看作下述两个子成绩，一个是定义在给定的数据集中，什么样的数据可以以为是不分歧的:另一个是找到一个有效的方法来发掘所定义的离群点。

（1）离群点产生的缘由

存在多种缘由导致离群点的产生，归纳如下。

（2）离群点分类

离群点分类

（3）离群点检测

常用的离群点检测方法如下。

ailanes80 · 2018-12-14 19:55:07

分享了

sky5377 · 2018-12-14 20:06:52

分享了

小DO爱小丹 · 2018-12-15 07:23:57

结束了嘛？有种还没完成的感觉，嘻嘻

123788999 · 2018-12-15 15:57:34

大佬，这是大佬

		自动登录	找回密码
密码			立即注册

数据发掘的常用方法

本帖子中包含更多资源

大神点评4

最近发表

公社版块

关注我们