门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
数据挖掘
›
数据挖掘常用流程及算法
返回列表
数据挖掘常用流程及算法
[复制链接]
ailanes80
2022-6-9 21:30:39
显示全部楼层
|
阅读模式
数据挖掘的基本流程
1、理解商业数据:只要是效力于企业,所有的工作都是为了商业化,因此一定要从商业的角度理解项目需求,在这个基础上再对数据挖掘的目的进行定义。
2、数据的理解:理解数据的定义,至少当你和人讲起的时候,你们讲的是同一个东西。然后对数据进行描述以及质量的验证。
3、数据准备:收集数据、数据的清洗及特征处理都在这一步完成。
4、模型的建立:选择和应用各种数据挖掘模型,并进行优化,以达到更好的效果。
5、模型的评估:对模型进行评价和打分,并检查模型的每个步骤,确认模型实现了商业目标。
6、上线发布:从数据中提炼出结论和知识,转化成一中用户可以使用的方式,可以是一份报告、也可以是一个比较复杂的重复挖掘的脚本,作为之后日常工作的一部分。
数据挖掘常用算法
为了进行数据挖掘,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威学术组织ICDM ( the IEEE International Conference on Data Mining )筛选出了十个最常用的算法。
按照使用的目的,可以分为四类。
分类算法:
C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART
聚类算法:
K-Means、EM
关联分析:
Apriorl
连接分析:
PageRank
C4.5算法,就是决策树算法,它创造性的可以在决策过程中就进行预剪枝,并且可以处理连续的属性,也可以对不完整的数据进行处理。朴素贝叶斯模型是基于概率论的原理,它的思想是对未知物体分类的时候需要求解这个未知物体出现在各个条件下的概率,那个大就属于哪一类,比如天气和田七,文章中出现中药后出现田七的概率明显高于天气。SVM又叫支持向量机,英文名是Support Vector Machine,简称SVM,适合超平面分类模型。KNN也叫临近算法,就是每个样本可以用它最接近的K个邻居来代表,如果几个样本距离A 的范围很近,那样本都可以归属于A。AdaBoost相当于一个联合提升算法,将多个效果弱的分类器一起联合使用以达到提升效果的目的。Apriori是一种挖掘关联规则的算法,通过挖掘经常出现在一起的集合来揭示之间的关系。CART代表分类和回归树,建立两棵树,一棵是分类树,一棵是回归树,属于一种决策学习的方法。EM算法也称为大期望算法,是求参数最大似然估计的一种方法。原理是这样的,如果想要评估参数A和参数B,在开始的状态下二者都是未知的,但是知道了A可以得到B信息,反过来也是如此,可以先赋值A然后的到B的估值,然后从Bde估值重新计算A,过程持续,直到收敛为止。K-Means算法是一个聚类算法,可以理解为先设置一个中心点,然后计算与中心的距离,距离那个近,就归属于那个类别。PageRank是一种类似于论文影响力的计算方式,一篇论文呗引用的次数越多即代表他的影响力越强,goole搜索引擎ed排序方法也是类似的原理,这也是goole搜索引擎更能搜到你想要的内容的原因。
以上是关于数据挖掘的一些学习心得,希望对你有帮助。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
3
名被占用
2022-6-9 21:31:33
显示全部楼层
转发了
回复
使用道具
举报
ebuqifa
2022-6-9 21:32:32
显示全部楼层
转发了
回复
使用道具
举报
fsbdsz
2022-6-12 18:48:44
来自手机
显示全部楼层
是爷们的娘们的都帮顶!大力支持
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
ailanes80
高级会员
0
关注
0
粉丝
104
帖子
Ta的主页
发布
加好友
最近发表
2024北京车展| 机构:无人驾驶技术将开始新一轮应用探索
打造无人驾驶、智能机器人全时巡检……北京将有人工智能街区了
哈博森远洋1号无人机开售:75分钟续航,双电4699元
又来一员猛将,无人驾驶真的近在眼前#华为智驾
你以为很贵,但实际却很便宜的智能家居,人生格局一下子打开了
“机器人”这种称呼该改一改了
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们