门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
数据挖掘
›
大数据时代,你应该知道的7种常用的数据挖掘方法 ...
返回列表
大数据时代,你应该知道的7种常用的数据挖掘方法
[复制链接]
5623178
2022-5-18 15:10:48
显示全部楼层
|
阅读模式
数据挖掘
又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题。
所谓
数据挖掘
是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
通俗地讲,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。
利用数据挖掘进行数据分析常用的方法主要有
分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘
等,它们分别从不同的角度对数据进行挖掘。
今天,小编带领大家一起认识这些基本的数据挖掘方法。
1.分类
分类是找出数据库中一组数据对象的
共同特点并按照分类模式
将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别,用于预测数据对象的离散类别。
主要
分类方法
有决策树、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神经网络等。
2.回归分析
回归分析,一个
统计预测模型
,用以描述和评估应变量与一个或多个自变量之间的关系;反映的是数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,
发现变量或属性间的依赖关系
。 其
主要研究问题
包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。
主要表现:
(1) 判别自变量是否能解释因变量的显著变化----关系是否存在。(2) 判别自变量能够在多大程度上解释因变量----关系的强度。(3) 判别关系的结构或形式----反映因变量和自变量之间相关的数学表达式。(4) 预测自变量的值。(5) 当评价一个特殊变量或一组变量对因变量的贡献时,对其自变量进行控制。
3.聚类
聚类,顾名思义就是按照相似性和差异性,把一组对象划分成若干类,并且每个类里面对象之间的相似度较高,不同类里面对象之间相似度较低或差异明显。
与分类不同的是聚类不依靠给定的类别对对象进行划分。
4.关联规则
关联规则是描述数据库中数据项之间所存在的关系的规则,可以从一件事情的发生,来推测另外一件事情的发生,即隐藏在数据间的关联或相互关系,从而更好地了解和掌握事物的发展规律等等。
关联规则数据挖掘中最经典的案例就是沃尔玛的啤酒和尿布的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒,于是沃尔玛将啤酒与尿布一起销售,提高了啤酒的销售额。
5.特征
特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。
特征选择的目的在于
从海量数据中提取出有用信息,
从而提高数据的使用效率。
6.变化和偏差分析
偏差是数据集中的小比例对象。通常,偏差对象被称为离群点、例外、野点等。
偏差分析是一个有趣的数据挖掘任务,其目的是
发现与大部分其他对象不同的对象
。
如分类中的反常实例,模式的例外,观察结果对期望的偏差等。
在管理及事件预警中,管理者更感兴趣的是那些意外规则。
意外规则
的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。
而其
成因
有数据源于不同的类、自然变异、数据测量或收集误差等。
7.Web页挖掘
通过对Web的挖掘,可以利用Web 的海量数据进行分析,
收集
政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力
分析和处理
那些对事件或疾病有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果
找出
事件发生或疾病发病过程中出现的各种问题和可能引起的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。
Web数据挖掘的研究对象是以半结构化和无结构文档为中心的Web,这些数据没有统一的模式,数据的内容和表示互相交织,数据内容基本上没有语义信息进行描述,仅仅依靠HTML语法对数据进行结构上的描述。
应用:
(1)网络流量分配情况、随时间变化情况分析。(2)网站广告点击率、投资收益比分析。(3)用户从哪里进入网站、跳出网站,进入感兴趣的页的方式等出入口分析。(4)用户来源分析。(5)访问站点的用户的浏览器和平台分析。(6)发现经常被用户一起访问的页面集合,作为优化站点的参照。(7)聚类行为模式相似的用户,形成智能推荐模式;聚类同一群用户访问的页面,帮助发现站点设计的不合理之处。(8)预测用户可能访问的页面,行为趋势分析和用户分类等。
数据挖掘是一种决策支持过程,它通过高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整策略,减少风险,做出正确的决策。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
6
顽皮猴
2022-5-18 15:11:20
显示全部楼层
转发了
回复
使用道具
举报
gwf4920475
2022-5-18 15:12:06
显示全部楼层
转发了
回复
使用道具
举报
華大夫
2022-5-18 15:12:59
显示全部楼层
转发了
回复
使用道具
举报
说谎。
2022-5-19 21:26:29
显示全部楼层
确实不错,顶先
回复
使用道具
举报
杨幂_202
2022-5-20 10:56:49
显示全部楼层
珍爱生命,果断回帖。
回复
使用道具
举报
久久久久久久
2022-5-21 08:26:07
显示全部楼层
LZ帖子不给力,勉强给回复下吧
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
5623178
注册会员
0
关注
0
粉丝
9
帖子
Ta的主页
发布
加好友
最近发表
定档8月16日 | 2024亚洲智能穿戴大会
华为智能眼镜 2评测:可能是上班族最好用的智能穿戴
2023年全球智能可穿戴腕带出货量及竞争格局分析
智能穿戴概念8日主力净流出24.84亿元,光启技术、立讯精密居前
智能穿戴概念11日主力净流入5.62亿元,三六零、兆易创新居前
智能穿戴概念10日主力净流出23.94亿元,立讯精密、中兴通讯居前
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们