门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
数据挖掘
›
数据发掘的常用方法
返回列表
数据发掘的常用方法
[复制链接]
文过添情
2018-12-14 18:10:26
显示全部楼层
|
阅读模式
1.神经网络方法
神经网络是基于生理学建立的智能仿生系统模型,具有良好的鲁棒性、自组织性、自顺应性、并行处理、分布存储和高度容错性等特性,非常合适处理数据发掘的成绩,因此,近年来越来越遭到注重。典型的神经网络模型有感知机、BP反向传播模型、函数型网络等。前馈式神经网络模型次要用于分类、预测和形式辨认;Hopfield的团圆模型和延续模型分别用于联想记忆和优化计算的反馈式神经网络模型;ART模型和Koholon模型次要用于聚类的自组织映射。
2.遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局代护方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据发掘中被加以运用。现已成功地开发了一个基于遗传算法的数据发掘工具,应用该工具对两架飞机失事的真实数据库停止了数据发掘实验,结果表明遗传算法是停止数据发掘的有效方法之一。遗传算法的运用还体如今与神经网络、粗糙集等技术的结合上。例如,应用遗传算法优化神经网络结构,在不添加错误率的前提下,删除多余的衔接和隐层单元;用遗传算法和BP算法结合训练神经网络,然后从网络提取规则等。但遗传算法较复杂,较早陷于部分极小的收敛成绩还没有处理。
3.决策树
决策树是一种常用于预测模型的方法,它经过将大量数据有目的地分类,从中找到一些有价值的、潜在的信息。次要优点是描画简单,分类速度快,特别合适于大规模的数据处理。最有影响和最早的决策树方法是著名的基于信息熵的ID3算法。它的次要成绩是:ID3是非递增学习算法; ID3决策树是单变量决策树,复杂概念的表达困难:异性间的互相关系强调不够:抗噪性差。针对上述成绩,出现了一系列的改进算法。
4.粗糙集方法
租糙集实际是研讨不准确、不确定知识的数学工具。粗糙集方法的优点是不需求给出外信息、简化输入信息的表达空间、算法简单而易于操作。粗糙集处理的对象是相似于二维关系表的信息表。关系数据库管理系统和数据仓库管理系统为粗糙集的数据发掘奠定了坚实的基础。但粗糙集的数学基础是集合论,难以直接处理延续的属性,而理想信息表中延续属性是普遍存在的,所以延续属性的团圆化制约了粗糙集实际的适用化。
5.覆盖正例排挤反例方法
覆盖正例排挤反例方法用覆盖一切正例、排挤一切反例来寻觅规则。首先在正例集合中任选一个种子,到反例集合中逐一比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环一切正例种子,将得到正例的规则,即选择子的合取式。
6.统计分析方法
在数据库字段项之间存在两种关系,函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,怕不函数关系法即应用统计学原理对数据库中的但仍是关确定性关系),对它们的分析可采用统计学方法,即应用统计学原理对数据库中的信息停止分析,次要内容引见如下:
统计分析:求解数据集中的最大值、最小值、总和、平均值等。 回归分析:用国归方程来表示变量间的数量关系。 相关分析:用相关系数来度质变量间的相关程度。 差异分析:从样本统计量的值得出差异来却确定总体参数之间能否存在差异等。
7.模糊集方法
模糊集方法是应用模糊集合实际对实践成绩停止模期评判、模糊决策、模糊形式辨认和模糊聚类分析。系统的复杂性越高,模糊性越强,普通模糊集合实际是用从属度来描画模糊事物的特性。
8.离群点检测
离群点又称异常点、孤立点,离群点检测的义务是辨认特征分明不同于其他数据的观测值,离群点检测算法的目的是发现真正的离群点,同时避免将正确的对象标注为离群点。
离群点检测的定义如下:给定一个有N个数据点或对象的数据集和希冀的高群点数K,找出与数据集中共余数据分明不同的、异常的或不分歧的前K个对象。发掘离群点成绩可以看作下述两个子成绩,一个是定义在给定的数据集中,什么样的数据可以以为是不分歧的:另一个是找到一个有效的方法来发掘所定义的离群点。
(1)离群点产生的缘由
存在多种缘由导致离群点的产生,归纳如下。
欺诈、入侵、不寻常的实验结果数据。 自然发生,表示了数据集的数据分布特征,如气候变化、基因渐变等。 数据测量和搜集出现了误差,次要有以为错误、测量设备缺点或存在噪声等。
(2)离群点分类
离群点分类
(3)离群点检测
常用的离群点检测方法如下。
基于统计的离群点检测。在统计方法中,首先对已知的给定数据样本集假设一个概率模型,例如泊松分布成正态分布,然后结合假设的模型停止不分歧性检验, 确定离群点。 基于间隔的离群点检测。对象O是一个基于间隔的孤立点,可以表示为DB(p,d),其中p和d是对象O的参数,表示数据集S中至少存在P部分与对象O的间隔大于d,也就是说,将那些与给定对象的间隔较大的对象作为间隔孤立点。基于间隔的离群点检测的最大优点是减少了计算量。 基于偏向的离群点检测,基于偏向的离群点检测是一种经过检测对象的特征来找出不分歧性数据的方法。假如一个对象偏离了给定对象的特征描画,那么此对象是不分歧的,这也表明偏向的含义是异常。常用的基于偏整的高群点检测方法是序列异常技术和OLAP数据立方体技术。序列异常方法模拟了人类可以从一系列相似的对象中辨认出异常对象的行为。OLAP数据立方体方法是运用了数据立方体来辨识高维数据中的异常区域,这种方法预先计算的是数据异常的度量,用于在数据集计算的一切层次上指点用户停止数据分析。假如数据立方体中的一个单元值与基于统计模型的希冀值分明不同,那么这个单元值就可以以为异常。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
4
ailanes80
2018-12-14 19:55:07
显示全部楼层
分享了
回复
使用道具
举报
sky5377
2018-12-14 20:06:52
显示全部楼层
分享了
回复
使用道具
举报
小DO爱小丹
2018-12-15 07:23:57
显示全部楼层
结束了嘛?有种还没完成的感觉,嘻嘻
回复
使用道具
举报
123788999
2018-12-15 15:57:34
显示全部楼层
大佬,这是大佬
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
文过添情
金牌会员
0
关注
0
粉丝
107
帖子
Ta的主页
发布
加好友
最近发表
国产化率首超50%,工业机器人进出口形势逆转
黄仁勋:人形机器人制造成本或比预期要低,花钱买车不如买机器人
那个震撼无数网友的人形机器人Atlas,退役了
外媒:马斯克透露,“擎天柱”机器人仍在试验阶段,最早明年年底
机器人!
终于知道为什么机器人无法取代人类了,看完网友分享,笑到肚子疼
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们