找回密码
 立即注册
搜索

数据发掘基础知识有哪些

如今有不少的新人想要参与大数据开发范畴,本篇文章小编就和大家分享一下数据发掘基础知识,对大数据开发感兴味的小伙伴下面就随小编一同来了解一下吧。


数据发掘基础知识有哪些



一、数据发掘技术的基本概念

随着计算机技术的发展,各行各业都末尾采用计算机及相应的信息技术停止管理和运营,这使得企业生成、搜集、存贮和处理数据的才能大大提高,数据量日积月累。企业数据实践上是企业的阅历积累,当其积累到一定程度时,必然会反映出规律性的东西。对企业来,堆积如山的数据无异于一个宏大的宝库。在这样的背景下,人们迫切需求新一代的计算技术和工具来开采数据库中蕴藏的宝藏,使其成为有用的知识,指点企业的技术决策和运营决策,使企业在竞争中立于不败之地。另一方面,近十余年来,计算机和信息技术也有了长足的停顿,产生了许多新概念和新技术,如更高功能的计算机和操作系统、因特网(intemet)、数据仓库(datawarehouse)、神经网络等等。在市场需求和技术基础这两个要素都具有的环境下,数据发掘技术或称KDD(KnowledgeDiscoveryinDatabases;数据库知识发现)的概念和技术就应运而生了。

数据发掘(DataMining)旨在从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事前不知道的、但又是潜在有用的信息和知识。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据交融(DataFusion)以及决策支持等。

二、数据发掘的基本义务

数据发掘的义务次要是关联分析、聚类分析、分类、预测、时序形式和偏向分析等。

1、关联分析(associationanalysis)

关联规则发掘由RakeshApwal等人首先提出。两个或两个以上变量的取值之间存在的规律性称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。普通用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴味度、相关性等参数,使得所发掘的规则更符合需求。

2、聚类分析(clustering)

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布形式,以及能够的数据属性之间的互相关系。

3、分类(classification)

分类就是找出一个类别的概念描画,它代表了这类数据的全体信息,即该类的外延描画,并用这种描画来构造模型,普通用规则或决策树形式表示。分类是应用训练数据集经过一定的算法而求得分类规则,分类可被用于规则描画和预测。

4、预测(predication)

预测是应用历史数据找出变化规律,建立模型,并由此模型对将来数据的种类及特征停止预测。预测关怀的是精度和不确定性,通常用预测方差来度量。

5、时序形式(time-seriespattern)

时序形式是指经过工夫序列搜索出的反复发生概率较高的形式。与回归一样,它也是用己知的数据预测将来的值,但这些数据的区别是变量所处工夫的不同。

6、偏向分析(deviation)

在偏向中包括很多有用的知识,数据库中的数据存在很多异常状况,发现数据库中数据存在的异常状况是非常重要的。偏向检验的基本方法就是寻觅观察结果与参照之间的差别。

三、数据发掘常的基本技术

1、统计学

统计学虽然是一门"陈旧的"学科,但它依然是最基本的数据发掘技术,特别是多元统计分析,如判别分析、主成分分析、因子分析、相关分析、多元回归分析等。

2、聚类分析和形式辨认

聚类分析次要是根据事物的特征对其停止聚类或分类,即所谓物以类聚,以期从中发现规律和典型形式。这类技术是数据发掘的最重要的技术之一。除传统的基于多元统计分析的聚类方法外,近些年来模糊聚类和神经网络聚类方法也有了长足的发展。

3、决策树分类技术

决策树分类是根据不同的重要特征,以树型结构表示分类或决策集合,从而产生规则和发现规律。

4、人工神经网络和遗传基因算法

人工神经网络是一个迅速发展的前沿研讨范畴,对计算机迷信人工智能、认知迷信以及信息技术等产生了重要而深远的影响,而它在数据发掘中也扮演着非常重要的角色。人工神经网络可经过示例学习,构成描画复杂非线性系统的非线性函数,这实践上是得到了客观规律的定量描画,有了这个基础,预测的难题就会迎刃而解。目前在数据发掘中,最常运用的两种神经网络是BP网络和RBF网络不过,由于人工神经网络还是一个新兴学科,一些重要的实际成绩尚未处理。

5、规则归纳

规则归纳相对来讲是数据发掘特有的技术。它指的是在大型数据库或数据仓库中搜索和发掘以往不知道的规则和规律,这大致包括以下几种方式:IF…THEN…

6、可视化技术

可视化技术是数据发掘不可忽视的辅助技术。数据发掘通常会触及较复杂的数学方法和信息技术,为了方便用户了解和运用这类技术,必须借助图形、图象、动画等手腕笼统地指点操作、引导发掘和表达结果等,否则很难推行普及数据发掘技术。

四、数据发掘技术实施的步骤

数据发掘的过程可以分为6个步骤:

1)了解业务:从商业的角度了解项目目的和需求,将其转换成一种数据发掘的成绩定义,设计出达到目的的一个初步计划。

2)了解数据:搜集初步的数据,停止各种熟习数据的活动。包括数据描画,数据探求和数据质量验证等。

3)预备数据:将最后的原始数据构形成最终合适建模工具处理的数据集。包括表、记录和属性的选择,数据转换和数据清算等。

4)建模:选择和运用各种建模技术,并对其参数停止优化。

5)模型评价:对模型停止较为彻底的评价,并检查构建模型的每个步骤,确认其能否真正完成了预定的商业目的。

6)模型部署:创建完模型并不意味着项目的结束,即便模型的目的是为了增进对数据的了解,所获得的知识也要用一种用户可以运用的方式来组织和表示。通常要将活动模型运用到决策制定的过程中去。该阶段可以简单到只生成一份报告,也可以复杂到在企业内实施一个可反复的数据发掘过程。控制得到普遍承认。

五、数据发掘的运用现状

数据发掘是一个新兴的边缘学科,它汇集了来自机器学习、形式辨认、数据库、统计学、人工智能以及管理信息系统等各学科的成果。多学科的互相交融和互相促进,使得这一新学科得以蓬勃发展,而且已初具规模。在美国国家迷信基金会(NSF)的数据库研讨项目中,KDD被列为90年代最有价值的研讨项目。人工智能研讨范畴的迷信家也普遍以为,下一个人工智能运用的重要课题之一,将是以机器学习算法为次要工具的大规模的数据库知识发现。虽然数据发掘还是一个很新的研讨课题,但它所固有的为企业创造宏大经济效益的潜力,已使其很快有了许多成功的运用,具有代表性的运用范畴有市场预测、投资、制造业、银行、通讯等。

美国钢铁公司和神户钢铁公司应用基于数据发掘技术的ISPA系统,研讨分析产品功能规律和停止质量控制,获得了分明效果。通用电器公司(GE)与法国飞机发动机制造公司(sNEcMA),应用数据发掘技术研制了CASSIOP.EE质量控制系统,被三家欧洲航空公司用于诊断和预测渡音737的缺点,带来了可观的经济效益。该系统于1996年获欧洲一等创造性运用奖。

享有盛誉的市场研讨公司,如美国的A.C.一Nielson和InformationResources,欧洲的GFK和ln.fratestBurk等纷纷末尾运用数据发掘工具来应付迅速增长的销售和市场信息数据。商家的激烈竞争导致了市场疾速饱和,产品的迅速更新,使得运营者对市场信息的需求格外激烈应用数据发掘技术所构成的市场预测才能和服务,使这些市场研讨公司获得了宏大收益。

英国广播公司(BBC)也运用数据发掘技术来预测电视收视率,以便合理安排电视节目时辰表。信誉卡公司AlllelicallKxT,ress自采用数据发掘技术后,信誉卡运用率添加了10%一15%。AT&T公司赁借数据发掘技术技术侦探国际电话欺诈行为,可以尽快发现国际电话运用中的不正常现象。

以上就是小编给大家分享的数据发掘基础知识,想要了解更多内容的小伙伴可以登录扣丁学堂官网咨询。想要学好大数据的小编给大家引荐口碑良好的扣丁学堂,扣丁学堂不只要专业的大数据培训班供大家学习还有专业教师制定的大数据学习道路图辅助学员学习,除此之外扣丁学堂还有与时俱进的课程体系和大量的大数据在线视频教程让学员收费观看学习,想要疾速学习大数据就到由专业教师授课的扣丁学堂学习吧。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评2

3wingsun34 2019-2-17 14:47:00 显示全部楼层
分享了
回复

使用道具 举报

套牢了 2019-2-18 07:40:10 显示全部楼层
楼猪V5啊
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies