智客公社

标题: 你知道数据挖掘吗?数据挖掘与机器学习什么关系?大数据相关吗? [打印本页]

作者: 战神冯子云    时间: 2024-6-14 07:12
标题: 你知道数据挖掘吗?数据挖掘与机器学习什么关系?大数据相关吗?
什么是数据挖掘?


[attach]832085[/attach]

关于什么是数据挖掘,很多学者和专家给出了不同的定义,以下我们列出几种常见的说法:
“简单地说,数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’,不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。” ——《数据挖掘:概念与技术》(J. Han and M. Kamber)
“数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。”——《数据挖掘原理》(David Hand, et al)
“运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。”——《数据挖掘--概念、模型、方法和算法》(Mehmed Kantardzic)
“数据挖掘(DM)是从大型数据库中将隐藏的预测信息抽取出来的过程。”——《数据挖掘:机遇与挑战》(John Wang)
而作为数据挖掘领域的华人第一人,韩家炜教授在《数据挖掘:概念与技术》的教学幻灯片中,给出一个更清晰的定义:“数据挖掘,就是从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式的过程。

[attach]832086[/attach]

数据挖掘特点

1.基于大量数据:并非说小数据量上就不可以进行挖掘,实际上大多数数据挖掘的算法都可以在小数据量上运行并得到结果。但是,一方面过小的数据量完全可以通过人工分析来总结规律,另一方面来说,小数据量常常无法反映出真实世界中的普遍特性。
2.非平凡性:所谓非平凡,指的是挖掘出来的知识应该是不简单的,绝不能是类似某著名体育评论员所说的“经过我的计算,我发现了一个有趣的现象,到本场比赛结束为止,这届世界杯的进球数和失球数是一样的。非常的巧合!”那种知识。这点看起来毋庸赘言,但是很多不懂业务知识的数据挖掘新手却常常犯这种错误。
3.隐含性:数据挖掘是要发现深藏在数据内部的知识,而不是那些直接浮现在数据表面的信息。常用的BI工具,例如报表和OLAP,完全可以让用户找出这些信息。
4.新奇性:挖掘出来的知识应该是以前未知的,否则只不过是验证了业务专家的经验而已。只有全新的知识,才可以帮助企业获得进一步的洞察力。
5.价值性:挖掘的结果必须能给企业带来直接的或间接的效益。有人说数据挖掘只是“屠龙之技”,看起来神乎其神,却什么用处也没有。这只是一种误解,不可否认的是在一些数据挖掘项目中,或者因为缺乏明确的业务目标,或者因为数据质量的不足,或者因为人们对改变业务流程的抵制,或者因为挖掘人员的经验不足,都会导致效果不佳甚至完全没有效果。但大量的成功案例也在证明,数据挖掘的确可以变成提升效益的利器。

[attach]832087[/attach]

数据挖掘步骤

数据挖掘的一般过程包括以下这几个方面:



[attach]832088[/attach]

首先是数据预处理。之所以有这样一个步骤,是因为通常的数据挖掘需要涉及相对较大的数据量,这些数据可能来源不一导致格式不同,也许有的数据还存在一些缺失值或者无效值,如果不经处理直接将这些‘脏’数据放到我们的模型中去跑,非常容易导致模型计算的失败或者可用性很差,所以数据预处理是我们所有数据挖掘过程中都不可或缺的一步。
至于数据挖掘和后处理相对来说就容易理解多了。完成了数据的预处理,我们通常进行的特征的构造然后放到特定的模型中去计算,利用某种标准去评判不同模型或组合模型的表现,最后确定一个最合适的模型用于我们的后处理。后处理的过程相当于我们已经发现了那个我们想要找到的模式,我们会去应用它或者用合适的方式将其表示出来。
数据挖掘与机器学习的关系

数据挖掘——是偏数据分析师干的活
机器学习——是偏算法工程师干的活

[attach]832089[/attach]

从数据上来看
DM:传统的数据挖掘数据量并不大,只有几万几十万这样,特征也不那么多,几百几千个维度差不多了,很多年前的教材讲的都是啤酒尿布啦欺诈识别啦预测和识别啦聚类啦这些脱胎于统计学的东西,上大数据集的性能么可想而知。
ML:机器学习呢,数据分分钟以亿计算,特征以万维计算,比如广告的以几万个商品id为特征,自然语言的以单个词语作为向量特征来做训练,卷积神经网络的不知道多少个数据点了,围棋博弈的数据甚至可以自己和自己博弈产生天量数据,不需要你输入数据集,这他们叫强化学习。
从算法上来看
它们使用的算法有部分重合的,大多数时候,数据挖掘项目能用到关联、聚类、分类、回归 几类算法就不错了,偶尔用最拿手的神经网络,机器学习算法比这个多而复杂,特别神经网络类的模型感觉挺牛的,还涉及到很多算法开发的工作,新的成果层出不穷。
从工作上来看
DM:工作量来看,数据挖掘的项目很多70%是在做数据的清洗,探索和分析,比如欺诈识别、时间序列预测、多维尺度分析、聚类、因子分析,更偏向于业务洞察
ML:机器学习呢,也许同样很多数据清洗的工作,但它的很多像广告ctr预估、nlp挖掘、围棋博弈、视觉识别都偏工程和数学
总结一下,可以用一个简单的比喻来形容它们之间的关系:如果说算法是刀,那么机器学习就是刀匠,数据挖掘就是刀法大师。一个追求刀的吹毛断发,所以搞机器学习的人会一个个算法不断重写,优化。一个寻找武术真谛,所以做数据挖掘的人有时候会用N个算法尝试解决同一个问题,然后找到最适合的解。

[attach]832090[/attach]

数据挖掘的常见分析方法

1.神经网络方法
神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。

2.遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

3.决策树方法
决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。

4.粗集方法
粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。

5.覆盖正例排斥反例方法
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。

6.统计分析方法
在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等。

7.模糊集方法
即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。


作者: 小样Sample    时间: 2024-6-14 07:12
转发了
作者: yyj对象    时间: 2024-6-15 12:12
呵呵。。。
作者: 清风@@影    时间: 2024-6-15 17:17
路过 帮顶 嘿嘿
作者: 周杰伦是大帅哥    时间: 2024-6-15 22:39
前排顶,很好!




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4