关于大数据发掘必备的30个知识点

陈光宝 · 2019-8-18 11:50:10

下面是一些关于大数据发掘的知识点，明天和大家一同来学习一下。

1. 数据、信息和知识是广义数据表现的不同方式。

2. 次要知识形式类型有：广义知识，关联知识，类知识，预测型知识，特异型知识

3. web发掘研讨的次要流派有：Web结构发掘、Web运用发掘、Web内容发掘

4. 普通地说，KDD是一个多步骤的处理过程，普通分为成绩定义、数据抽取、数据预处理，数据发掘以及形式评价等基本阶段。

5. 数据库中的知识发现处理过程模型有：阶梯处理过程模型，螺旋处理过程模型，以用户为中心的处理结构模型，联机KDD模型，支持多数据源多知识形式的KDD处理模型。

6. 粗略地说，知识发现软件或工具的发展阅历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现处理方案三个次要阶段，其中后面两种反映了目前知识发现软件的两个次要发展方向。

7. 决策树分类模型的建立通常分为两个步骤：决策树生成，决策树修剪。

8. 从运用的次要技术上看，可以把分类方法归结为四种类型：

基于间隔的分类方法

决策树分类方法

贝叶斯分类方法

规则归纳方法

9. 关联规则发掘成绩可以划分成两个子成绩：

发现频繁项目集:经过用户给定Minsupport ，寻觅一切频繁项目集或者最大频繁项目集。

生成关联规则:经过用户给定Minconfidence ，在频繁项目集中，寻觅关联规则。

10. 数据发掘是相关学科充分发展的基础上被提出和发展的，次要的相关技术：

数据库等信息技术的发展

统计学深化运用

人工智能技术的研讨和运用

11. 衡量关联规则发掘结果的有效性，应该从多种综合角度来思索：

准确性：发掘出的规则必须反映数据的实践状况。

适用性：发掘出的规则必须是简约可用的。

新颖性：发掘出的关联规则可以为用户提供新的有价值信息。

12. 约束的常见类型有：

单调性约束;

反单调性约束;

可转变的约束;

简约性约束.

13. 根据规则中触及到的层次，多层次关联规则可以分为：

同层关联规则：假如一个关联规则对应的项目是同一个粒度层次，那么它是同层关联规则。

层间关联规则：假如在不同的粒度层次上思索成绩，那么能够得到的是层间关联规则。

14. 按照聚类分析算法的次要思绪，聚类方法可以被归纳为如下几种。

划分法：基于一定标准构建数据的划分。

属于该类的聚类方法有：k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。

层次法：对给定数据对象集合停止层次的分解。

密度法：基于数据对象的相连密度评价。

网格法：将数据空间划分成为有限个单元(Cell)的网格结构，基于网格结构停止聚类。

模型法：给每一个簇假定一个模型，然后去寻觅可以很好的满足这个模型的数据集。

15. 类间间隔的度量次要有：

最短间隔法：定义两个类中最接近的两个元素间的间隔为类间间隔。

最长间隔法：定义两个类中最远的两个元素间的间隔为类间间隔。

中心法：定义两类的两个中心间的间隔为类间间隔。

类平均法：它计算两个类中恣意两个元素间的间隔，并且综合他们为类间间隔：离差平方和。

16. 层次聚类方法详细可分为：

凝聚的层次聚类：一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到某个终结条件被满足。

分裂的层次聚类：采用自顶向下的策略，它首先将一切对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件。

层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。

17. 文本发掘(TD)的方式和目的是多种多样的，基本层次有：

关键词检索：最简单的方式，它和传统的搜索技术相似。

发掘项目关联：聚焦在页面的信息(包括关键词)之间的关联信息发掘上。

信息分类和聚类：应用数据发掘的分类和聚类技术完成页面的分类，将页面在一个更到层次上停止笼统和整理。

自然言语处理：揭示自然言语处理技术中的语义，完成Web内容的更准确处理。

18. 在web访问发掘中常用的技术：

途径分析：途径分析最常用的运用是用于断定在一个Web站点中最频繁访问的途径，这样的知识对于一个电子商务网站或者信息安全评价是非常重要的。

关联规则发现：运用关联规则发现方法可以从Web访问事务集中，找到普通性的关联知识。

序列形式发现：在工夫戳有序的事务集中，序列形式的发现就是指找到那些如“一些项跟随另一个项”这样的外部事务形式。

分类：发现分类规则可以给出辨认一个特殊群体的公共属性的描画。这种描画可以用于分类新的项。

聚类：可以从Web Usage数据中聚集出具有相似特性的那些客户。在Web事务日志中，聚类顾客信息或数据项，就可以便于开发和执行将来的市场战略。

19. 根据功能和侧重点不同，数据发掘言语可以分为三种类型：

数据发掘查询言语：希望以一种像SQL这样的数据库查询言语完成数据发掘的义务。

数据发掘建模言语：对数据发掘模型停止描画和定义的言语，设计一种标准的数据发掘建模言语，使得数据发掘系统在模型定义和描画方面有标准可以遵照。

通用数据发掘言语：通用数据发掘言语合并了上述两种言语的特点，既具有定义模型的功能，又能作为查询言语与数据发掘系统通讯，停止交互式发掘。通用数据发掘言语标准化是目前处理数据发掘行业出现成绩的颇具吸引力的研讨方向。

20. 规则归纳有四种策略：减法、加法，先加后减、先减后加策略。

减法策略：以详细例子为出发点，对例子停止推行或泛化，推行即减除条件(属性值)或减除合取项(为了方便，我们不思索添加析取项的推行)，使推行后的例子或规则不覆盖任何反例。

加法策略：起始假设规则的条件部分为空(永真规则)，假如该规则覆盖了反例，则不停地向规则添加条件或合取项，直到该规则不再覆盖反例。

先加后减策略：由于属性间存在相关性，因此能够某个条件的加入会导致后面加入的条件没什么作用，因此需求减除后面的条件。

先减后加策略：道理同先加后减，也是为了处理属性间的相关性。

21. 数据发掘定义有广义和广义之分。

从广义的观点，数据发掘是从大型数据集(能够是不完全的、有噪声的、不确定性的、各种存储方式的)中，发掘隐含在其中的、人们事前不知道的、对决策有用的知识的过程。

从这种广义的观点上，我们可以定义数据发掘是从特定方式的数据集中提炼知识的过程。

22. web发掘的含义： 针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据，运用数据发掘方法以协助人们从因特网中提取知识，为访问者、站点运营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。

23. K-近邻分类算法(K Nearest Neighbors，简称KNN)的定义：经过计算每个训练数据到待分类元组的间隔，取和待分类元组间隔最近的K个训练数据，K个数据中哪个类别的训练数据占多数，则待分类元组就属于哪个类别。

24. K-means算法的功能分析：

次要优点：是处理聚类成绩的一种经典算法，简单、疾速;对处理大数据集，该算法是相对可伸缩和高效率的;当结果簇是密集的，它的效果较好。

次要缺陷：在簇的平均值被定义的状况下才能运用，能够不适用于某些运用;必须事前给出k(要生成的簇的数目)，而且对初值敏感，对于不同的初始值，能够会导致不同结果;不合适于发现非凸面外形的簇或者大小差别很大的簇。而且，它对于“躁声”和孤立点数据是敏感的。

25. ID3算法的功能分析：

ID3算法的假设空间包含一切的决策树，它是关于现有属性的有限团圆值函数的一个残缺空间。所以ID3算法避免了搜索不残缺假设空间的一个次要风险：假设空间能够不包含目的函数。

ID3算法在搜索的每一步都运用当前的一切训练样例，大大降低了对个别训练样例错误的敏感性。因此，经过修正终止准绳，可以容易地扩展四处理含有噪声的训练数据。

ID3算法在搜索过程中不停止回溯。所以，它易受无回溯的爬山搜索中的常见风险影响：收敛到部分最优而不是全局最优。

26. Apriori算法有两个致命的功能瓶颈:

多次扫描事务数据库，需求很大的I/O负载

对每次k循环，侯选集Ck中的每个元素都必须经过扫描数据库一次来验证其能否加入Lk。假如有一个频繁大项目集包含10个项的话，那么就至少需求扫描事务数据库10遍。

能够产生庞大的侯选集

由Lk-1产生k-侯选集Ck是指数增长的，例如104个1-频繁项目集就有能够产生接近107个元素的2-侯选集。如此大的侯选集对工夫和主存空间都是一种应战。a基于数据分割的方法：基本原理是“在一个划分中的支持度小于最小支持度的k-项集不能够是全局频繁的”。

27. 改善Apriori算法顺应性和效率的次要的改进方法有：

基于数据分割(Partition)的方法：基本原理是“在一个划分中的支持度小于最小支持度的k-项集不能够是全局频繁的”。

基于散列的方法：基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不能够是全局频繁的”。

基于采样的方法：基本原理是“经过采样技术，评价被采样的子集中，并依次来估计k-项集的全局频度”。

其他：如，动态删除没有用的事务：“不包含任何Lk的事务对将来的扫描结果不会产生影响，因此可以删除”。

28. 面向Web的数据发掘比面向数据库和数据仓库的数据发掘要复杂得多：

异构数据源环境：Web网站上的信息是异构: 每个站点的信息和组织都不一样;存在大量的无结构的文本信息、复杂的多媒体信息;站点运用和安全性、私密性要求各异等等。

数据的是复杂性：有些是无结构的(如Web页)，通常都是用长的句子或短语来表达文档类信息;有些能够是半结构的(如Email，HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的普通性描画特征成为数据发掘的不可推脱的责任。

动态变化的运用环境：

Web的信息是频繁变化的，像旧事、股票等信息是实时更新的。

这种高变化也体如今页面的动态链接和随机存取上。

Web上的用户是难以预测的。

Web上的数据环境是高噪音的。

29. 简述知识发现项目的过程化管理I-MIN过程模型。

MIN过程模型把KDD过程分成IM1、IM2、…、IM6等步骤处理，在每个步骤里，集中讨论几个成绩，并按一定的质量标准来控制项目的实施。

IM1义务与目的：它是KDD项目的计划阶段，确定企业的发掘目的，选择知识发现形式，编译知识发现形式得到的元数据;其目的是将企业的发掘目的嵌入到对应的知识形式中。

IM2义务与目的：它是KDD的预处理阶段，可以用IM2a、IM2b、IM2c等分别对应于数据清洗、数据选择和数据转换等阶段。其目的是生成高质量的目的数据。

IM3义务与目的：它是KDD的发掘预备阶段，数据发掘工程师停止发掘实验，反复测试和验证模型的有效性。其目的是经过实验和训练得到稀释知识(Knowledge Concentrate)，为最终用户提供可运用的模型。

IM4义务与目的：它是KDD的数据发掘阶段，用户经过指定数据发掘算法得到对应的知识。

IM5义务与目的：它是KDD的知识表示阶段，按指定要求构成规格化的知识。

IM6义务与目的：它是KDD的知识解释与运用阶段，其目的是根据用户要求直观地输入知识或集成到企业的知识库中。

30. 改善Apriori算法顺应性和效率的次要的改进方法有：

基于数据分割(Partition)的方法：基本原理是“在一个划分中的支持度小于最小支持度的k-项集不能够是全局频繁的”。

基于散列(Hash)的方法：基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不能够是全局频繁的”。

基于采样(Sampling)的方法：基本原理是“经过采样技术，评价被采样的子集中，并依次来估计k-项集的全局频度”。

其他：如，动态删除没有用的事务：“不包含任何Lk的事务对将来的扫描结果不会产生影响，因此可以删除”。

墨尔本_想睡 · 2019-8-18 17:42:50

我只是路过，不发表意见

rainx2 · 2019-8-19 13:00:04

学习下

chengxiao2 · 2019-8-20 15:49:16

话不多说，【抱拳了，老铁】。

		自动登录	找回密码
密码			立即注册

关于大数据发掘必备的30个知识点

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们