找回密码
 立即注册
搜索

数据发掘的常用方法

1.神经网络方法

神经网络是基于生理学建立的智能仿生系统模型,具有良好的鲁棒性、自组织性、自顺应性、并行处理、分布存储和高度容错性等特性,非常合适处理数据发掘的成绩,因此,近年来越来越遭到注重。典型的神经网络模型有感知机、BP反向传播模型、函数型网络等。前馈式神经网络模型次要用于分类、预测和形式辨认;Hopfield的团圆模型和延续模型分别用于联想记忆和优化计算的反馈式神经网络模型;ART模型和Koholon模型次要用于聚类的自组织映射。

2.遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局代护方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据发掘中被加以运用。现已成功地开发了一个基于遗传算法的数据发掘工具,应用该工具对两架飞机失事的真实数据库停止了数据发掘实验,结果表明遗传算法是停止数据发掘的有效方法之一。遗传算法的运用还体如今与神经网络、粗糙集等技术的结合上。例如,应用遗传算法优化神经网络结构,在不添加错误率的前提下,删除多余的衔接和隐层单元;用遗传算法和BP算法结合训练神经网络,然后从网络提取规则等。但遗传算法较复杂,较早陷于部分极小的收敛成绩还没有处理。

3.决策树

决策树是一种常用于预测模型的方法,它经过将大量数据有目的地分类,从中找到一些有价值的、潜在的信息。次要优点是描画简单,分类速度快,特别合适于大规模的数据处理。最有影响和最早的决策树方法是著名的基于信息熵的ID3算法。它的次要成绩是:ID3是非递增学习算法; ID3决策树是单变量决策树,复杂概念的表达困难:异性间的互相关系强调不够:抗噪性差。针对上述成绩,出现了一系列的改进算法。

4.粗糙集方法

租糙集实际是研讨不准确、不确定知识的数学工具。粗糙集方法的优点是不需求给出外信息、简化输入信息的表达空间、算法简单而易于操作。粗糙集处理的对象是相似于二维关系表的信息表。关系数据库管理系统和数据仓库管理系统为粗糙集的数据发掘奠定了坚实的基础。但粗糙集的数学基础是集合论,难以直接处理延续的属性,而理想信息表中延续属性是普遍存在的,所以延续属性的团圆化制约了粗糙集实际的适用化。

5.覆盖正例排挤反例方法

覆盖正例排挤反例方法用覆盖一切正例、排挤一切反例来寻觅规则。首先在正例集合中任选一个种子,到反例集合中逐一比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环一切正例种子,将得到正例的规则,即选择子的合取式。

6.统计分析方法

在数据库字段项之间存在两种关系,函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,怕不函数关系法即应用统计学原理对数据库中的但仍是关确定性关系),对它们的分析可采用统计学方法,即应用统计学原理对数据库中的信息停止分析,次要内容引见如下:
    统计分析:求解数据集中的最大值、最小值、总和、平均值等。 回归分析:用国归方程来表示变量间的数量关系。 相关分析:用相关系数来度质变量间的相关程度。 差异分析:从样本统计量的值得出差异来却确定总体参数之间能否存在差异等。

7.模糊集方法

模糊集方法是应用模糊集合实际对实践成绩停止模期评判、模糊决策、模糊形式辨认和模糊聚类分析。系统的复杂性越高,模糊性越强,普通模糊集合实际是用从属度来描画模糊事物的特性。

8.离群点检测

离群点又称异常点、孤立点,离群点检测的义务是辨认特征分明不同于其他数据的观测值,离群点检测算法的目的是发现真正的离群点,同时避免将正确的对象标注为离群点。

离群点检测的定义如下:给定一个有N个数据点或对象的数据集和希冀的高群点数K,找出与数据集中共余数据分明不同的、异常的或不分歧的前K个对象。发掘离群点成绩可以看作下述两个子成绩,一个是定义在给定的数据集中,什么样的数据可以以为是不分歧的:另一个是找到一个有效的方法来发掘所定义的离群点。

(1)离群点产生的缘由

存在多种缘由导致离群点的产生,归纳如下。
    欺诈、入侵、不寻常的实验结果数据。 自然发生,表示了数据集的数据分布特征,如气候变化、基因渐变等。 数据测量和搜集出现了误差,次要有以为错误、测量设备缺点或存在噪声等。

(2)离群点分类


离群点分类



(3)离群点检测

常用的离群点检测方法如下。
    基于统计的离群点检测。在统计方法中,首先对已知的给定数据样本集假设一个概率模型,例如泊松分布成正态分布,然后结合假设的模型停止不分歧性检验, 确定离群点。 基于间隔的离群点检测。对象O是一个基于间隔的孤立点,可以表示为DB(p,d),其中p和d是对象O的参数,表示数据集S中至少存在P部分与对象O的间隔大于d,也就是说,将那些与给定对象的间隔较大的对象作为间隔孤立点。基于间隔的离群点检测的最大优点是减少了计算量。 基于偏向的离群点检测,基于偏向的离群点检测是一种经过检测对象的特征来找出不分歧性数据的方法。假如一个对象偏离了给定对象的特征描画,那么此对象是不分歧的,这也表明偏向的含义是异常。常用的基于偏整的高群点检测方法是序列异常技术和OLAP数据立方体技术。序列异常方法模拟了人类可以从一系列相似的对象中辨认出异常对象的行为。OLAP数据立方体方法是运用了数据立方体来辨识高维数据中的异常区域,这种方法预先计算的是数据异常的度量,用于在数据集计算的一切层次上指点用户停止数据分析。假如数据立方体中的一个单元值与基于统计模型的希冀值分明不同,那么这个单元值就可以以为异常。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评4

ailanes80 2018-12-14 19:55:07 显示全部楼层
分享了
回复

使用道具 举报

sky5377 2018-12-14 20:06:52 显示全部楼层
分享了
回复

使用道具 举报

小DO爱小丹 2018-12-15 07:23:57 显示全部楼层
结束了嘛?有种还没完成的感觉,嘻嘻
回复

使用道具 举报

123788999 2018-12-15 15:57:34 显示全部楼层
大佬,这是大佬
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies