大牛用三年谱写出大数据互联网大规模数据发掘与分布式处理新乐章

愤怒的小鸡． · 2019-12-3 07:20:52

众所周知，移动互联网、社交媒体、电子商务和各种传感器的运用产生了超大数据集，发掘这些数据可以提炼出有用的信息。

本篇以大数据环境下的数据发掘和机器学习为重点，片面引见了实际中行之有的数据处理算法，是在校先生和相关从业人员的必备读物。次要内容包括10大内容:

◆分布式文件系统以及MapReduce工具;

◆相似性搜索;

◆数据流处理以及针对易丢失数据等特殊状况的公用途理算法;

◆搜索引擎技术，如谷歌的PageRank;

◆频繁项集发掘;

◆大规模高维数据集的聚类算法;

◆Web运用中的关键成绩一广告管理和引荐系统;

◆社会网络图发掘;

◆降维处理，如SVD分解和CUR分解;

◆大规模机器学习。

数据发掘基本概念

本章为全书的导论部分,首先阐述数据发掘的本质,并讨论其在多个相关学科中的不同了解。

接着引见邦弗朗尼原理( Bonferroni's principle), 该原理实践上对数据发掘的过度运用提出了正告。

本章还概述了一些非常有用的思想，它们未必都属于数据发掘的范畴，但是却有利于了解数据发掘中的某些重要概念。这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的性质、包含自然对数底e的恒等式等。最后，简要引见了后续章节所要触及的主题。

相似项发现

一个基本的数据发掘成绩是从数据中获得“相似”项。我们将在3.1节中引见该成绩的相关运用，并且给出一个详细的Web网页近似查重的例子。这些近似反复的网页能够是抄袭网页，或者仅仅是主机及其他镜像网页信息有所不同的镜像网页。

首先我们将相似度成绩表述为寻觅具有相对较大交集的集合成绩,接着我们引见如何将文本相似成绩转换为上述集合成绩并经过著名的“shingling" 技术来处理。然后，我们引见逐一个称为最小哈希( minhashing)的技术，它可以对大集合停止紧缩，并且可以基于紧缩后的结果推导原始集合的相似度。当相似度要求很高时，也可以运用-些其他的技术，这些技术将在3.9节停止引见。

恣意类型的相似项搜索中存在的另外-一个重要成绩是,即便对每项之间的相似度计算非常简单，但是由于项对数目过多，无法对一切项对检测相似度。针对该成绩，催生了一种称为部分敏感哈希( Locality Sensitive Hashing,简称LSH )的技术，该技术可以把搜索范围集中在那些能够相似的项对下面。

最后，我们不再将相似度的概念限制在集合的交集运算上，而是思索在恣意空间下的间隔度量实际。与此同时，这也激发了一个LSH的通用框架的出现，该框架可以运用在相似度的其他定义中。

数据流发掘

本书引见的大部分算法都假定是从数据库中停止发掘。也就是说，假如真需求数据的时分，一切数据都可用。本章中，我们将给出另外- -种假设:数据以一-个或多个流的方式到来，假如不对数据停止及时的处理或者存储，数据将会永远丢失。此外，我们假定数据到来的速度真实是太快，致使将全部数据存在活动存储器( 即传统数据库)并在我们选定的工夫停止交互是不能够的。

数据流处理的每个算法都在某种程度上包含流的汇总( summarization)过程。我们首先思索如何从流中抽取有用样本，以及如何从流中过滤除大部分“不想要” 的元素。然后,我们展现如何估计流中的独立元素个数，其中估计方法所用的存储开支远少于罗列一切所见元素的开支。

另外一种对流停止汇总的方法是只观察一个定长“窗口”，该窗口由最近的n个元素组成，其中n是某个给定值,通常较大。然后我们就当它是数据库的逐一个关系-样对窗口停止查询处理。

假如有很多流并且/或者n很大，我们能够无法存下每个流的整个窗口。因此，即便对这些“窗口”我们都需求停止汇总处理。对于-一个位流窗口,其中的1的数目的近似估计是一个基本成绩。

我们将运用一种比存储整个窗口耗费空间要少很多的方法。该方法也能推行到对各种求和值停止近似。.

频繁项集

本章次要关注数据描写的一类次要技术一频繁项集发现。该成绩常常被看成“关联规则”发现，虽然后者次要是基于频繁项集发现而完成的逐一种更复杂的数据描写方式。

首先，我们引见数据的“购物篮”模型，其本质上是“项”和“购物篮”两类元素之间的多对多关系。但是其中有一些关于数据外形的假设。频繁项集成绩就是寻觅出如今很多相反购物篮中(与该购物篮相关的)的项集。

频繁项集发现成绩和第3章讨论的相似性搜索不同，前者次要关注包含某个特定项集的购物篮的相对数目,而后者的次要目的是寻觅购物篮之间具有较高重合度的项集，不管购物篮数目的相对数量能否很低。

上述差异导致了一类新的频繁项集发现算法的产生。我们首先引见A-Priori算法，该算法的基本思绪是，假如-一个集合的子集不是频繁项集，那么该集合也不能够是频繁项集。基于这种思绪，该算法可以经过检查小集合而去掉大部分不合格的大集合。接着，我们引见基本的A-Priori算法的各种改进，这些改进策略集中关注给可用内存带来很大压力的极大规模数据集。

再接上去，我们还会思索一些更快的近似算法,这些算法不能保证找到一切的频繁项集。这类算法当中的一些算法也运用了并行化机制，包括基于MapReduce框架的并行化方法。

最后，我们将简要地讨论数据流中的频繁项集的发现成绩。

引荐系统.

有一类包罗万象的Web运用触及用户对选项的爱好停止预测，这种系统称为引荐系统( recommendation system )。本章将首先给出这类系统的一些最重要运用样例。

但是，为了集中关注成绩本身，下面给出两个很好的引荐系统样例:

(1)基于对用户兴味的预测结果，为在线报纸的读者提供旧事报道;

(2)基于顾客过去的购物和/或商品搜索历史，为在线批发商的顾客引荐他们能够想要买的商品。

引荐系统运用一系列不同的技术，这些系统可以分成两大类：

大规模机器学习

如今有很多算法被归入“机器学习”类。同本书引见的其他算法一样,这些算法的目的都是从数据中获取信息。一切数据分析算法都是基于数据生成概要,基于这些概要信息可以停止决策。

在很多例子中，第6章引见的频繁项集分析方法都生成了关联规则这类信息，这些信息可以用于规划销售策略或者为其他目的服务。

但是，称为“机器学习”的算法不只可以对数据停止概括，还可以将它们视作模型的学习器或者数据的分类器，因此可以学到数据中将来可以见到的某种信息。例如，第7章引见的聚类算法可以产生- -系列簇，这些簇不只能告诉我们有关被分析数据(训练集)的信息，而且可以将将来数据分到聚类算法生成的某-个簇当中。因此，机器学习爱好者通常用“非监督学习”这个新词来表达聚类，术语“非监督”( unsupervised )表示输人数据并不会告诉聚类算法最后输入的簇到底应该是什么。而在有监督( supervised )的机器学习(本章的主题)中，给出的数据中包含了至少对- -部分数据停止正确分类的信息。曾经分好类的数据称为训练集( training set )。

本章并不打算片面引见机器学习中一切的方法,而只关注那些适用于处理极大规模数据的方法，以及有能够并行化完成的方法。我们会引见学习数据分类器的经典的“感知机”方法，该方法可以找到-一个将两类数据分开的超平面。之后，我们会调查-一些更古代的包括支持向量机的技术。与感知机相似，这些方法寻觅最佳的分类超平面，以使尽能够少(假如有的话)的训练集元素接近超平面。最后讨论近邻技术，即数据按照某个空间下最近的一些邻居的类别停止分类。

由于篇幅过长，小编这里就不做过多的引见了，想必大家对数据发掘和分布式也有本人的一些了解和见解，但是呢，我置信大家对大规模这个数字还有些概念上的差距，希望大家可以细心品读这篇的真理！

那么，大家假如是需求这篇【大数据互联网大规模数据发掘与分布式处理】技术文档的话，就可以分享此文关注小编，私信小编“学习”来得到获取方式吧。

无花只因寒 · 2019-12-3 07:25:24

分享了

华夏女孩 · 2019-12-3 07:27:52

分享了

dreamy77 · 2019-12-3 07:36:11

分享了

wf7312 · 2019-12-3 07:37:59

分享了

花开那一天 · 2019-12-4 11:16:56

锄禾日当午，发帖真辛苦。谁知坛中餐，帖帖皆辛苦！

kulelala · 2019-12-5 09:13:57

有点兴趣，要有详细介绍就好啦。

大唐制作 · 2019-12-5 22:43:05

……

		自动登录	找回密码
密码			立即注册

大牛用三年谱写出大数据互联网大规模数据发掘与分布式处理新乐章

本帖子中包含更多资源

大神点评7

最近发表

公社版块

关注我们