智客公社

标题: 数据挖掘是如何运作的? [打印本页]

作者: 拉还不行    时间: 2023-2-3 19:10
标题: 数据挖掘是如何运作的?
读懂数据等于掌握财富密码。但并不是所有数据都有价值,这就是数据挖掘的价值所在,本文介绍大数据挖掘的全流程
大多数时候当人们搜索数据挖掘的时候,他们所感兴趣的是整个流程,数据挖掘只是流程中的一个环节。数据挖掘也可以被理解为为如何在数据中发现“知识”
从原始数据开始,使用计算和算法工具,直到获得有价值的数据,我们可以称之为知识,步骤如图

[attach]800397[/attach]

Data Mining Process
从原始数据到进行数据的选择得到Target Data
假设我们我们有很多关于某种现象的信息现象,我们想得出一些在这种情况下,关于这个问题的知识。有时我们有一些数据不是有用的数据,有些数据还没有准备好在这种情况下被使用。例如,我们要做的基本处理是颜色选择,然后我们得到数据到目标日期,有了这个目标数据,我们可以对这个目标数据做转换处理。在此之前,我们需要对数据进行预处理
方法一:异常值检测

[attach]800398[/attach]

Outlier Detection
假设我们有数据的变量分布,我们可以看到或者我们也可以用算法来检测这个红色的点是一个离群点,在某些情况下一些算法可能无法正常工作。如果我们的数据与整个分布非常不同与整个分布非常不同,这被称为离群点,我们可以尝试去掉并得到这个经过处理的数据

[attach]800399[/attach]

Red Outlier
方法二:检测缺失值

[attach]800400[/attach]

Detect Missing Values
假设我们有这个数据分布,我们可以来做一个估计。使用那条绿线,所以我们可以尝试填充估计值

[attach]800401[/attach]

Detect Missing Values
接下来,是数据归一化处理,因为有时我们有一些数据的值是从0到1,另一些数据可能是文本数据。另一个步骤是寻找相关的变量,假设我们有这两个变量,我们可以看到它们有很高的相关性,这意味着,使用这两个变量是没有用的

[attach]800402[/attach]

Correlated Variables
我们可以用这些变量做什么呢?我们可以在数据中应用一些转换来使这些变量不相关

[attach]800403[/attach]

Transformation
接下来是整个步骤的主要内容,也就是所谓的从转换后的数据中挖掘出的数据。我们如何做可以得到这些模式?我们可以应用几种分类算法或数据挖掘算法,但在当前这种情况下,我们可以应用几种算法,如K最近的邻居,甚至是一个决策树或支持向量机。这些都是可能的数据挖掘算法或分类算法,我们将这些算法应用于数据,以获得模式

[attach]800404[/attach]

KNN

[attach]800405[/attach]

Patterns
开始将数据变成模式,然后流程的最后一步是对这些模式的解释。这不是一个自动程序,用户观察应用中的模式解释,以认可该模式,用户可以看一下发现的模式,看看是否有一些多余的或不相关的模式
有了这些东西,他就可以从数据中获得数据的认可,我们有所有这些绿色箭头,这意味着我们可以返回到前面的任何一个步骤,我们以改善我们的模式的概念,也是我们说的知识

[attach]800406[/attach]

Knowledge
以上就是数据挖掘全工作流程的简单介绍,谢谢你的关注
作者: ycypu    时间: 2023-2-3 19:10
转发了
作者: 0火星来的0    时间: 2023-2-5 15:59
赞赞赞赞赞赞赞赞
作者: 晨晨素子善CC    时间: 2023-2-6 07:05
鼎力支持!!
作者: 康一迅空压机    时间: 2023-2-6 14:59
有空一起交流一下




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4