找回密码
 立即注册
搜索

三分钟带你了解数据发掘

数据发掘

明天,我带领大家来了解一下数据发掘。

首先,我们先来了解一下数据发掘的定义。

数据发掘是指从大量的数据中经过算法搜索隐藏于其中信息的过程。

我们再来看一下数据发掘的详细解释。

所谓数据发掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非伟大过程。数据发掘是一种决策支持过程,它次要基于人工智能、机器学习、形式辨认、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中发掘出潜在的形式,协助决策者调整市场策略,减少风险,作出正确的决策。

接上去,我们来大致学习一下数据发掘的基本步骤。数据发掘是经过分析每个数据,从大量数据中寻觅其规律的技术,次要有数据预备、规律寻觅和规律表示三个步骤。数据预备是从相关的数据源中选取所需的数据并整合成用于数据发掘的数据集;规律寻觅是用某种方法将数据集所含的规律找出来;规律表示是尽能够以用户可了解的方式(如可视化)将找出的规律表示出来。数据发掘的义务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演化分析等。

数据发掘过程模型步骤次要包括定义成绩、建立数据发掘库、分析数据、预备数据、建立模型、评价模型和实施。







下面让我们来详细看一下每个步骤的详细内容:

定义成绩。在末尾知识发现之前最先的也是最重要的要求就是了解数据和业务成绩。必需要对目的有一个明晰明白的定义,即决议到底想干什么。比如,想提高电子信箱的应用率时,想做的能够是“提高用户运用率”,也能够是“提高一次用户运用的价值”,要处理这两个成绩而建立的模型几乎是完全不同的,必须做出决议。

建立数据发掘库。建立数据发掘库包括以下几个步骤:数据搜集,数据描画,选择,数据质量评价和数据清算,合并与整合,构建元数据,加载数据发掘库,维护数据发掘库。

分析数据。分析的目的是找到对预测输入影响最大的数据字段,和决议能否需求定义导出字段。假如数据集包含成百上千的字段,那么阅读分析这些数据将是一件非常耗时和累人的事情,这时需求选择一个具有好的界面和功能弱小的工具软件来协助你完成这些事情。

预备数据。这是建立模型之前的最后一步数据预备工作。可以把此步骤分为四个部分:选择变量,选择记录,创建新变量,转换变量。

建立模型。建立模型是一个反复的过程。需求细心调查不同的模型以判别哪个模型对面对的商业成绩最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。有时还有第三个数据集,称为验证集,由于测试集能够受模型的特性的影响,这时需求一个独立的数据集来验证模型的准确性。训练和测试数据发掘模型需求把数据至少分成两个部分,一个用于模型训练,另一个用于模型测试。

评价模型。模型建立好之后,必须评价得到的结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实践运用中,需求进一步了解错误的类型和由此带来的相关费用的多少。阅历证明,有效的模型并不一定是正确的模型。形成这一点的直接缘由就是模型建立中隐含的各种假定,因此,直接在理想世界中测试模型很重要。先在小范围内运用,获得测试数据,觉得称心之后再向大范围推行实施。模型建立并阅历证之后,可以有两种次要的运用方法。第一种是提供给分析人员做参考;另一种是把此模型运用到不同的数据集上。







之后,我们来了解下数据发掘的五个基本特点。

基于大量数据:并非说小数据量上就不可以停止发掘,实践上大多数数据发掘的算法都可以在小数据量上运转并得到结果。但是,一方面过小的数据量完全可以经过人工分析来总结规律,另一方面来说,小数据量常常无法反映出真实世界中的普遍特性。

非伟大性:所谓非伟大,指的是发掘出来的知识应该是不简单的,绝不能是相似某著名体育回复员所说的“经过我的计算,我发现了一个风趣的现象,到本场比赛结束 为止,这届世界杯的进球数和失球数是一样的。非常的巧合!”那种知识。这点看起来勿庸赘言,但是很多不懂业务知识的数据发掘新手却常常犯这种错误。

隐含性:数据发掘是要发现深藏在数据外部的知识,而不是那些直接浮如今数据表面的信息。常用的BI工具,例如报表和OLAP,完全可以让用户找出这些信息。

新奇性:发掘出来的知识应该是以前未知的,否则只不过是验证了业务专家的阅历而已。只要全新的知识,才可以协助企业获得进一步的洞察力。

价值性:发掘的结果必须能给企业带来直接的或间接的效益。有人说数据发掘只是“屠龙之技”,看起来神乎其神,却什么用途也没有。这只是一种曲解,不可否认的 是在一些数据发掘项目中,或者由于缺乏明白的业务目的,或者由于数据质量的不足,或者由于人们对改变业务流程的抵制,或者由于发掘人员的阅历不足,都会导 致效果不佳甚至完全没有效果。但大量的成功案例也在证明,数据发掘的确可以变成提升效益的利器。

以上就是我给大家引见的关于数据发掘的一些基本内容,这些只是关于数据发掘的一些皮毛知识,假如对数据发掘有兴味的可以查阅相关材料和文献再停止更深层次的了解。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

dreamy77 2020-3-8 15:15:07 显示全部楼层
在撸一遍。。。
回复

使用道具 举报

机智大咩 2020-3-9 15:08:37 来自手机 显示全部楼层
LZ敢整点更有创意的不?兄弟们等着围观捏~
回复

使用道具 举报

飱淰 2020-3-10 12:05:18 显示全部楼层
回个帖子,下班咯~
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies