清华178页深度报告：一文看懂AI数据发掘

遂宁趣闻 · 2019-4-28 09:45:52

数据发掘（Data Mining）是一门跨学科的计算机迷信分支，它用人工智能、机器学习、统计学和数据库的交叉方法，在大规模数据中发现隐含形式，在批发、物流、旅游等行业有着广泛运用场景。
在数据爆炸的时代里，如何应用手中数据资源提高行业效率、提高行业质量，成为了众多企业决策者所关注的成绩，数据发掘也逐渐成为当下的抢手研讨范畴之一，遭到了谷歌、亚马逊、阿里、百度等科技巨头的追捧。
本期的智能内参，我们引荐来自清华大学人工智能研讨院、北京智源人工智能研讨院、清华-工程院知识智能结合研讨中心结合推出的人工智能数据发掘报告，详细解读了数据发掘技术运用范畴、研讨概念、算法完成、与发展趋向。假如想收藏本文的报告（清华AMiner-人工智能之知识图谱），可以前往AMiner官网（https://www.aminer.cn/research_report/5c3d5a5cecb160952fa10b76?download=true）获取下载。

以下为智能内参整理呈现的干货：

数据发掘与KDD

数据发掘（Data Mining），是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的数据和信息，并将其转化为计算机可处理的结构化表示。
目前数据发掘的次要功能包括概念描画、关联分析、分类、聚类和偏向检测等，用于描画对象外延、概括对象特征、发现数据规律、检测异常数据等。
普通来说，数据发掘过程有五个步骤：确定发掘目的、数据预备、停止数据发掘、结果分析、知识的异化。

▲数据发掘过程基本步骤
1、确定发掘目的
认清数据发掘的目的是数据发掘的重要一步。发掘的最后结果是不可预测的，但要探求的成绩应是有预见的。
2、数据预备
数据预备又分为三个阶段：
1）数据的选择：搜索一切与目的对象有关的外部和外部数据信息，并从中选择出适用于数据发掘运用的数据；
2）数据的预处理：研讨数据的质量，为进一步的分析做预备，并确定将要停止的发掘操作的类型；
3）数据的转换：将数据转换成一个分析模型。这个分析模型是针对发掘算法建立的。建立一个真正合适发掘算法的分析模型是数据发掘成功的关键。
3、停止数据发掘
对得到的经过转换的数据停止发掘。
4、结果分析
解释并评价结果，其运用的分析方法普通应视数据发掘操作而定，通常会用到可视化技术。
5、知识的异化
将分析所得到的知识集成到所要运用的地方去。

▲数据发掘的分类表
如上图所示，数据发掘有多种分类方式，可以按照发掘的数据库类型、发掘的知识类型、发掘所用的技术类型停止分类。
同时，数据发掘也可以按照行业运用来停止分类，比如生物医学、交通、金融等行业都有其独特的数据发掘方法，不能做到用同一个数据发掘技术运用到各个行业范畴。
数据发掘是知识发现（KDD）的一个关键步骤。1989年8月，Gregory I. Piatetsky- Shapiro等人在美国底特律的国际人工智能结合会议（IJCAI）上召开了一个专题讨论会（workshop），初次提出了知识发现（Knowledge Discovery in Database，KDD）这一概念。

▲数据发掘是知识发现的过程之一
KDD触及数据库、机器学习、统计学、形式辨认、数据可视化、高功能计算、知识获取、神经网络、信息检索等众多学科和技术的集成，再后来的30年间KDD逐渐构成了一个独立、蓬勃发展的交叉研讨范畴。
早期比较有影响力的发现算法有：IBM的Rakesh Agrawal的关联算法、UIUC大学韩家炜（Jiawei Han）教授等人的FP Tree算法、澳大利亚的John Ross Quinlan教授的分类算法、密西根州立大学Erick Goodman的遗传算法等等。
目前，数据发掘曾经惹起国际、国内工业界的广泛关注，IBM、谷歌、亚马逊、微软、Facebook、阿里巴巴、腾讯、百度等都在数据发掘研讨方面停止了运用与实际研讨。

国际知识发现与数据发掘大会（ACM SIGKDD Conference on Knowledge Discovery and Data Mining，简称SIGKDD）是数据发掘范畴的顶级国际会议，由ACM的数据发掘及知识发现专委会担任协调筹办，会议内容涵盖数据发掘的基础实际、算法和实践运用。

数据发掘源于商业的直接需求

数据发掘技术从一末尾就是面向运用的，源于商业的直接需求。目前数据发掘在批发、旅游、物流、医学等范畴都有所运用，可以大大提高行业效率和行业质量。
举个例子，批发是数据发掘的次要运用范畴之一。这是由于由于条形码技术的发展使得前端收款机系统可以搜集大量售货、顾客购买历史记录、货物进出状况、消费与服务记录等数据。
数据发掘技术有助于辨认顾客购买行为，发现顾客购买形式和趋向，改进服务质量，获得更高的顾客保持力和称心程度，减少批发业成本。
同时，同一顾客在不同时期购买的商品数据可以分组为序列，序列形式发掘可用于分析顾客的消费或忠实度的变化，据此对价格和商品的花样加以调整和更新，以便留住老客户，吸引新客户。
与此同时，社交网络也是数据发掘研讨中的抢手范畴，比如新浪微博就是拥有海量数据的资讯平台。
截止到2017年12月，新郎微博已拥有接近4亿活跃用户，内容存量超千亿，“大V”的一举一动和社会热点话题都会惹起大量的回复与分享，掀起一股“数据风暴”。

▲柯洁乌镇大战AlphaGo撼负后的微博热议
微博上每个用户的言论、分享内容等都蕴藏着用户个人的兴味、话题等信息，文字内容本身的智能分析了解也是数据分析范畴长久以来孜孜不倦追求的目的。
社会网络中的聚类被称为社区发现，许多精心设计的高效算法可以很好地处理上亿用户的大规模网络。
针对微博用户的海量数据，对其停止数据描画性可以分析群体的年龄、性别比例、职业等；对于平均数、中位数、分位数、方差等统计目的可以协助我们粗略了解数据分布；回归分析、方差分析等方法则可以解释年龄、职业等要素能否会影响用户对某抢手话题的关注程度。
此外，数据发掘在旅游、物流、医学等范畴都有着广泛的运用场景。比如数据发掘可以对旅游客流的趋向有着准确的预知性，同时对于游客的爱好也有着直接性的掌握；从医学数据中寻觅潜在的关系或规律，可以获得对病人停止诊断、治疗的有效知识，添加对疾病预测的准确性等。

人工智能与数据发掘

数据发掘从一个新的视角将数据库技术、统计学、机器学习、信息检索技术、数据可视化和形式辨认与人工智能等范畴无机结合起来，它组合了各个范畴的优点，因此能从数据中发掘到运用其他传统方法不能发现的有用知识。
普通来说，统计特征只能反映数据的极大批信息。简单的统计分析可以协助我们了解数据，假如希望对大数据停止逐一地、更深层次地探求，总结出规律和模型，则需求愈加智能的基于机器学习的数据分析方法。
所谓“机器学习”，是基于数据本身的，自动构建处理成绩的规则与方法。数据发掘中既可以用到非监督学习方法，也可以用到监督学习方法。
1、非监督学习
非监督学习是建立在一切数据的标签，即所属的类别都是未知的状况下运用的分类方法。对于特定的一组数据，不知道这些数据应该分为哪几类，也不知道这些类别本来应该有怎样的特征，只知道每个数据的特征向量。若按它们的相关程度分成很多类，最先想到的想法就是以为特征空间中间隔较近的向量之间也较为相关，假使一个元素只和其中某些元素比较接近，和另一些元素则相距较远。
这时分，我们就希望每一个类有一个“中心”，“中心”也是特征向量空间中的向量，是一切那一类的元素在向量空间上的重心，即他的每一维为一切包含在这一类中的元素的那一维的平均值。假如每一类都有这么一个“中心”，那么我们在分类数据时，只需求看他离哪个“中心”的间隔最近，就将他分到该类即可，这也就是K-means算法的思绪。
K-means算法，在1957年由Stuart Lloyd在贝尔实验室提出，最后用于处理延续的图区域划分成绩，1982年正式发表。1965年，E.W.Forgy发明了Lloyd-Forgy or。James MacQueen在1967年将其命名为K-means算法。

上图是以随机生成的数据点为例，k=3的K-means算法的迭代过程，其中五角星为聚类中心，点的颜色是其类别。在实践运用中，为了获得一个比较好的特征空间，使得“数据之间的相似性与他们在特征空间上的间隔有关，间隔越近越相似”这句话尽能够成立，我们往往会构建模型来把原数据变换到这么一个特征空间，然后运用K-means算法来停止分类。
2、监督学习
不同于非监督学习，若已知一些数据上的真实分类状况，如今要对新的未知的数据停止分类。这时分应用已知的分类信息，可以得到一些更准确的分类方法，这些就是监督学习方法。
1）决策树模型
所谓决策树，即是一种根据条件来停止判别的逻辑框架。其中，判别的条件，即提出有区分性的成绩，以及对于不同的回答下一步的反映，以及最终的决策给出标签。
决策树算法：
1.选取包含一切数据的选集为算法的初始集合A0：
2.对于当前的集合A，计算一切能够的“成绩”在训练集上的F（A,D）：
3.选择F（A,D）最大的“成绩”，对数据停止发问，将当前的集合由“成绩”的不同回答，划分为数个子集；
4.对每个子集，反复b、c，直到一切子集内一切元素的类别相反；
5.在实践运用中，数据往往有很多特征，因此，“成绩”往往是选取数据的某一特征，而“回答”则是此特征对应的值。
在决策树中，效度函数F（A,D）的选择非常重要。决策树的发展历史，也基本是围绕着F（A,D）的优化而展开。
2）kNN算法
只知道每个数据在特征空间下的特征向量状况下，可以对数据采用无监督分类方法K-means。假如我们拥有了其中一部分数据的标签，我们就可以应用这些标签停止kNN分类。
数据之间的相似性与他们在特征空间上的间隔有关。间隔越近越相似，越能够拥有相反的标签。
假设我们曾经有了很多既知道特征向量也知道详细标签的数据对于新的只知道特征向量却不知道详细标签的数据，我们可以选取离这个特征向量最近的k个曾经知道标签的数据，然后选取他们中间最多的元素所属于的那个标签，作为新数据的预测标签。也可以根据他们与新数据的特征向量之间的间隔加权（如最近得5分，第二近得4分等），取权重总和最大的标签作为预测标签。
kNN算法不需求构建模型或者训练，和K-means算法一样，往往是和某个构建特征空间的模型一同运用。
此外，还有回归分类、神经网络、朴素贝叶斯分类等等。

巨头们的数据发掘之路

在当下，数据发掘也逐渐成为当下的抢手研讨范畴之一，遭到了谷歌、亚马逊、微软、百度、阿里、腾讯等科技巨头的追捧。
1、谷歌
谷歌几乎每年都会发表一些让人冷艳的研讨工作，包括之前的MapReduce、Word2Vec、BigTable，近期的BERT。数据发掘是谷歌研讨的一个重点范畴。
2018年谷歌全球不同研讨中心在数据发掘顶级国际会议KDD上一共发表了7篇文章。
2、亚马逊
亚马逊公司近几年发展势头超级猛，前几年华丽的转身：从一个网上商店公司变为云平台公司再转变到目前的人工智能公司，亚马逊也在数据发掘范畴末尾占有一席，尤其是在人才搜罗、开源、核心技术研发。
2018年亚马逊在数据发掘顶级国际会议KDD的Applied Data Science Track（运用数据迷信Track）上一共发表了2篇文章，另外还有两个运用迷信的约请报告。
3、微软
微软是老牌论文王国，不断以来都在学术界特别活跃，因此在KDD上每年和微软有关的论文非常多，因此这里只统计了微软作为第一作者的文章。
2018年在数据发掘顶级国际会议KDD上一共发表了6篇文章，另外还有一个运用迷信的约请报告，这些文章和报告都更多的从大数据的角度在思索如何更有效，更疾速的分析。
4、阿里巴巴
阿里巴巴在电子商务方面做了大量的数据发掘研讨。尤其是在表示学习和加强学习做了几个很有意思的工作。
2018年阿里巴巴在数据发掘顶级国际会议KDD上作为第一作者单位一共发表了8篇文章。
5、腾讯
2018年腾讯在数据发掘顶级国际会议KDD上作为第一作者单位一共发表了2篇文章。
6、百度
2018年百度在数据发掘顶级国际会议KDD上作为第一作者单位一共发表了2篇文章。

大数据与数据发掘

大数据是近年随着互联网、物联网、通讯网络以及人类社交网络疾速发展的结果，成为一个交叉研讨学科，和数据发掘严密相连。
大数据的迅速发展也使得数据发掘对象变得更为复杂，不只包括人类社会与物理世界的复杂联络，还包括呈现出的高度动态化。这使得很多传统数据发掘算法不再适用，传统数据发掘算法必须满足对真实数据和实时数据的处理才能，才能从大量无序数据中获取真正价值。
一方面大数据包含数据发掘的各个阶段，即数据搜集、预处理、特征选择、形式发掘、表示等；另一方面大数据的基础架构又为数据发掘提供下层数据处理的硬件设备。

▲大数据处理平台技术架构图
从技术架构角度，大数据处理平台可划分为4个层次：数据采集层、数据存储层、数据处理层和服务封装层。
除此之外，大数据处理平台普通还包括数据安全和隐式保护模块，这一模块贯穿大数据处理平台的各个层次。
智东西以为，随着大数据时代的降临，各行各业所积累的数据呈爆炸式增长，数据发掘在各个范畴的需求将会越来越激烈，与各个专业范畴的结合也将会越来越广泛。无论是在迷信范畴还是工程范畴、实际研讨还是理想生活中，数据发掘都将有着极为广阔的发展前景。

诗棋梦魂 · 2019-4-28 09:47:03

数据发掘。

ouyangyao · 2019-4-28 09:55:29

其实就是算法吧

樱木迷 · 2019-4-28 09:59:22

分享了

雨纷风雨 · 2019-4-28 10:05:30

要个学鸡毛算法，知道学习模型称号，去国外copy 就行了！99.99%写的一定没copy 的好！

希腊帅非 · 2019-4-28 10:07:39

分享了

南方沈艺 · 2019-4-28 10:08:58

分享了

qq331244362 · 2019-4-28 10:18:45

分享了

qq331244362 · 2019-4-28 10:23:45

分享了

黄龙long · 2019-4-28 10:24:39

分享了

		自动登录	找回密码
密码			立即注册

清华178页深度报告：一文看懂AI数据发掘

本帖子中包含更多资源

大神点评22

最近发表

公社版块

关注我们