找回密码
 立即注册
搜索

数据挖掘重点

遥想当年每次考试,同学们就会整理每门课的重点,今天想找以前知识点看,看书太费时间,结果好多都被删了,非常可惜。一本书的精华就没啦。。。
还好,还有几个没删除,发在这里,就不会丢啦,想看就看。

以前看过无数遍的现在再看起来亲切
数据挖掘这么高大上的课我都学过~~~~~~~~~~~~~


一本书的重点吧!
19898月,第11届国际人工智能联合会议,首次提出了从数据库中发现知识的概念。(美国底特律)
1995年,首届数据挖掘与知识发现国际学术会议。里程碑意义的会议。(加拿大蒙特利尔)
数据挖掘(Data Mining):在数据中正规地发现有效的、新颖的、潜在有用的,并且最终可以被读懂的模式的过程。
数据挖掘的特点:
1)挖掘对象是超大型的数据库
2)发现隐含的知识
3)可以用于增进人类认识的知识
4)不是手工完成的
数据挖掘主要来源于数据库、统计学和机器学习三大主要技术。
数据挖掘的目的:
发现数据中隐含的所有新知识;
利用某种方法将这些新知识表现出来。
知识表现的规则有前提条件和结论两部分组成
规则具有普遍性
数据挖掘与知识发现的步骤:
选择:根据某种标准选择或者切分数据。例如,将所有患有肺结核的病人的记录套录下来,形成该疾病患者的数据子集。
处理:包括清除和充实两个方面,由于数据是来自于日常工作中的记录,有许多冗余的和重复的内容,如病人的姓名可能在药局和实验室的数据库中都出现,有时还要从其他数据库中补充新的数据等等。
转换:删除那些丢失重要内容的记录,将数据分类(如按病人年龄分组),改变记录的格式(如将生日转换为实际年龄)等等。
数据挖掘:运用工具和算法,在数据中发现模式和规律。
解释与评价:将发现的模式解释成为可以用于决策的知识,如预测、分类任务、总结数据库的内容或者解释观察到的现象。
数据有不完整性、不一致性和噪声等现象。
复杂类型数据库:
空间数据库、Web数据库、时序数据库
按照算法,将数据挖掘的模型分为预测和描述两类。
数据挖掘的算法
相关、分类或特征提取、序列模式、聚类
数据挖掘系统的体系结构
1.数据挖掘系统的体系结构 数据库管理模块负责对系统内数据库、数据仓库、挖掘知识库的维护与管理。
2.挖掘前处理模块  挖掘前处理模块对所收集到的数据进行清理、集成、选择、转换、生成数据仓库或数据挖掘库。
3.挖掘操作模块(核心) 挖掘操作模块利用各种数据挖掘算法针对数据库、数据仓库、数据挖掘库并借助挖掘知识库中的规则、方法、经验和事实数据等,挖掘和发现知识。
4模式评估模块  模式评估模块对数据挖掘结果进行评估。
5.知识输出模块  知识输出模块完成对数据挖掘出的模式进行翻译、解释,以人们易于理解的方式提供给真正渴望知识的决策者使用。
CRISP-DM是由全球领先的数据挖掘专家SPSS联合NCR、德国戴姆勒-克莱斯勒以及新西兰OHRA公司共同推出的全球首个数据挖掘行业标准。起源于1996年。
CRISP-DM将数据挖掘的过程分成6个阶段:
1、理解问题或称商业理解 商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。
2、理解数据  数据是我们挖掘过程的“原材料”,在数据理解过程中我们要知道都有些什么数据,这些数据的特征是什么,可以通过对数据的描述性分析得到数据的特点。
3、准备数据(最关键)  在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工作。选出要进行分析的数据,并对不符合模型输入要求的数据进行规范化操作。
4、建立模型  建模过程也是数据挖掘中一个比较重要的过程。我们需要根据分析目的选出适合的模型工具,通过样本建立模型并对模型进行评估。
5、方案评估  并不是每一次建模都能与我们的目的吻合,评价阶段旨在对建模结果进行评估,对效果较差的结果我们需要分析原因,有时还需要返回前面的步骤对挖掘过程重新定义。
6、方案实施  这个阶段是用建立的模型去解决实际中遇到的问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。
数据的质量直接关系到数据挖掘结果的质量。
影响数据挖掘结果质量的两个因素:所采用的数据挖掘技术的有效性(模型的选择)和用于挖掘的数据的质量和数量。
数据转换即根据一定的标准,把数据的格式转化一致。
数据集成是把来自不同数据源的数据合并到一起。
数据归约是将初始数据集转换到某种更加紧凑的形式而又不丢失有意义的语义信息的过程。数据归约得到数据集的压缩表示。
关联规则有效性的度量指标:支持度和置信度。
支持度(support,S:关联规则在总体中发生的概率,是关联规则重要性的定性度量。反映规则出现的频繁程度,可用来过滤不频繁出现的规则。
规则{A-B}的支持度S可按下式计算: S{A-B} = NA-B /N,其中N表示记录总数, NA-B表示在N条记录中满足AB共同发生的记录总数。
置信度(confidence,C:表示构成关联规则的一个特征属性A发生时,另一个特征属性B的发生概率,反映这两个特征属性之间关联的强度。
规则{A-B}的置信度C可按下式计算:C {A-B}= S{A-B} /S{A}







于是可得出下列三条规则:
R1:烤鸭è面饼、面酱。支持度40%,置信度为66.6%
R2:面饼è烤鸭、面酱。支持度40%,置信度为66.6%
R3:面酱è面饼、烤鸭。支持度40%,置信度为50%
例如
R1,将烤鸭降价,以促销面饼、面酱,很可能会破产
R2,将面饼降价,以促销烤鸭,可能会发财;
R3,引不起顾客的热情。
分类(classification是一种数据分析过程,即根据记录各属性的值确定该记录属于预定类别中的哪一类。
疾病的诊断和鉴别诊断就是典型的分类过程。
聚类分析(Cluster Analysis)是将一个数据集划分为若干组或类的过程,并使得同一个组内的数据对象具有较高的相似度;不同的组中的数据对象是不相似的。
相似或不相似的描述是基于数据描述属性的取值来确定的,常利用各对象间的距离来表示。两个数据点越接近,表明这两个相应对象越相似,反之亦然。
聚类分析可用作独立的数据挖掘工具,来获得对数据分布的了解,也可用作其他数据挖掘算法的预处理步骤。
聚类与分类的不同:
分类是根据样本的属性将数据对象分到不同的已知类中;
聚类是在划分的类未知的情况下,将数据对象组成不同类,需在样本中找到这个属性。
决策树学习采用的是自顶向下的递归方法
战略坐标为一个二维坐标
横轴表示向心度,纵轴表示密度,坐标的原点在两个轴的中位数或者平均数。
密度(density):用来量度各个类别之内的主题词的紧密程度,它表示该类维持自己和发展自己的能力。
向心度(Centrality):用来量度各个类别主题词与其他类别主题词之间的紧密程度。表示一个学科领域和其它学科领域的相互影响的程度,一个学科领域与其它学科领域联系的数目和强度越大,这个学科领域在整个研究工作中就越趋于中心地位。
战略坐标可以概括地表现一个领域或亚领域的结构,它把每一个研究热点放置到坐标的四个象限中,从而描述各主题的研究发展状况。
决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类别。
决策树的基本组成部分:由内部节点、叶节点、根节点组成


 

 
文本挖掘(text mining):是指抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。
文本挖掘的作用
1提高了海量非结构化信息源的利用价值;
2使得人们能够更加方便地从海量文本中发现隐含的知识;
3为企业的战略决策提供竞争情报的支持。
文本挖掘的具体实现技术:文本预处理、文本聚类、文本自动摘要
词频分为相对词频和绝对词频
绝对词频是指词在文本中出现的频率;
相对词频为归一化的词频,即要求所有向量分量的平方为1
西文文本标引流程
1)从文本中取出一个单词:由于西文中每两个单词之间都具有空格间隔,因此,可以通过空格取词。
2)确定候选关键词:利用取出的词去搜索停用词表,如果该词是停用词就把它舍去;否则,该词是候选关键词。
3)分析候选关键词:对于重复的候选关键词,删除重复词,同时累及词频。
4)确定标引词:如果标引对象是标题,只需判断所取出的候选词是否重复,去重后,这些词可以全部作为标引词。
非相关文献:两篇或多篇公开发表的文献不彼此引用或不共引其他文献。
Swanson开发的网络应用软件ARROWSMITH即体现了闭合式挖掘这一思想。

 闭合式的知识发现


           开放式的知识发现

用于数据挖掘的工具:BitolaClementimeArrowSmith
信息检索和信息抽取的区别(考)
1、功能不同。 如前所述
2、处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bags of words),不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。
3、适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。
Meta中的每一个概念都会被指定一个概念识别码(unique concept identifier , 简称CUI)CUI本身不具意义,只用作连结的指针。
而每一个表达概念含意的字符串(name or string),不管是大小写的分别或语文上拼字的不同,凡是有差异者均视为一个独立的字符串,而分别赋予不同的字符串识别码(unique string identifier, 简称SUI)
由于Meta实际上是由英文款目所构成的,所以不同词型间表达相同概念的语词要能连结在一起,就必须依赖一般形式识别码术语码(common term identifier, 简称LUI)的指引。
 

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies