数据迷信、数据湖、人工智能、数据发掘、机器学习…到底是什么？

liwenpp101 · 2019-5-20 08:40:40

全文共3226字，估计学习时长6分钟

数据迷信、大数据、数据湖、人工智能、数据发掘、机器学习、深度学习、商业智能、商业分析……近些年，众多的文章和言论都讨论了上述术语。像往常一样，当某样东西变得盛行时，它的概念、定义和限制就会逐渐消逝。

假如你注册了Linkedin还常常运用的话，你能曾经留意到了，光看标题越来越猜不出别人到底在做什么。我们曾经厌倦了眼花纷乱的科技词汇和缩略词，也越来越没有费心去了解它们的含义。

“但是你……你到底是做什么的？”

风趣的时辰来了……
· 假如讯问者与你职位相反，你可以详细解释（或者你应该能做到）。
· 假如讯问者和你是一个部门的，你能够会假设他知道你运用的一切技术，并给出解释，但你能够会解释不清。
· 讯问者和你从事的范畴不同：那么考验你的时分到了。尤其是他末尾问你成绩的时分……
· 要是你不得不向你的祖母解释呢？

有一句“名言”（作者被误传为阿尔伯特·爱因斯坦）是这样说的：

假如你能向你的祖母解释清楚一件事，那你才是真的了解了。

另一种说法说的是6岁的孩子而不是祖母，但假如我们要说的是技术，那还是祖母吧。
1. 数据迷信(DS)

简单定义为：数据迷信是从数据中提取有用知识的一系列技能和技术。
这些技能通常用德鲁·康威（Drew Conway）创造的维恩图（或它的变体）来表示：

三个圆圈分别代表三个不同的范畴：编程范畴（言语知识、言语库、设计形式、体系结构等）；数学（代数、微积分等）和统计学范畴；数据范畴(特定范畴的知识：医疗、金融、工业等)。
这些范畴共同构成了定义中的技能和技术。它们包括获取数据、数据清算、数据分析、创建假设、算法、机器学习、优化、结果可视化等等。
数据迷信汇集了这些范畴和技能，支持和改进了从原始数据中提取见解和知识的过程。

什么是“有用的知识”？就是可以具有某种价值、可以回答或处理理想世界中成绩的知识。
数据迷信也可以定义为：研讨运用数据处理和分析方面的停顿，为我们提供处理方法和答案的范畴。
2. 大数据

这个解释起来就简单了：大数据就是大量的数据。
要定义大数据，通常会用3V来解释，这是产生大数据的3个次要缘由：

· 容量：搜集的数据量每分钟都在巨幅增长，我们需求运用分布式处理方案(运用多台机器，而不是非常非常昂贵的超级计算机/主机)来调整我们的存储和处理工具以顺应该容量。
· 速度：处理数据的紧急程度与产生/获取数据的频率相关，还与决策中迫切运用数据的需求有关；即便是实时(或者几乎实时)。
· 种类：数据不再（仅）是结构化的，所以我们得遗忘适用于传统数据库的东西。我们必须为添加各种格式的新数据源做预备；纯文本和多媒体内容都包括在内。
之后更多V被添加出去：真实性（数据必须真实、牢靠、可用）、价值（数据应有商业或社会价值）、易损性（数据必须合法、尊重隐私，并以安全的方式存储和访问）。
大数据能够是处理这些成绩的方案。不要把它和本文解释的第一个概念混淆了：大数据就是完成或促进运用数据迷信范畴先进技术的事物，是数据的本质要求。例如，作为数据迷信家，我们试图从数据集中得到答案。数据集不只超过了RAM的大小，还超过了硬盘的大小。大数据为我们提供了跨多台机器承载数据的分布式存储技术，以及并行处理数据的分布式处理技术。
3. 数据湖

数据湖是一个集中存储库，用于存储各种数据：结构化数据（我们填入表格的数据）、半结构化数据（数据几乎符合一切格式：CSV，日志，JSON，XML等）和非结构化数据（文档、电子邮件、PDF、图片、视频、音频等）。数据是在公司外部生成的还是在公司外部生成的并不重要。
“集中”意味着一切都将存储在同一个地方，每个人都将访问那儿获取数据。这并不是说一切的数据都在同一个机器里或公司里；分布式存储将成为一种惯例，数据还可以储存在云端。

不要忽略一个重要的细节：数据是以原始格式存储的，没有停止任何更改。这意味着将来停止分析时信息都是残缺的；数据只要在运用时才会被处理和转换。此外，把鱼煮熟了再放回湖里有什么意义呢？ :)
4. 人工智能

机器能思索吗？

1950年，艾伦·图灵（Alan Turing）提出了这个成绩，他甚至发明了一个著名的测试，来评价机器给出的答案能否与人类的答案相似。从那当前，对人工智能的幻想就末尾了，重点在于模拟人类行为。

你做过那个测试吗？
人工智能不是《银翼杀手》中的复制人，也不是《太空堡垒卡拉狄加》中的赛昂人。我们可以把人工智能定义为任何具有某种智能行为的机器或软件。
什么是智能行为?
问得好！这就是有分歧的地方。随着机器不断被开发出新功能，以前被以为是智能的义务也从人工智能环境中剥离了出来。

我们可将人工智能定义为可以从其环境中正确解释数据、从中学习，并在不断变化的环境中运用所获得的知识来执行特定义务的机器或软件。
例如：一辆会自行停车的汽车不是智能汽车；它只是按照常规测量间隔和移动。我们以为可以自动驾驶的汽车就是智能的，由于它可以根据周边发生的事情(在完全不确定的环境中)做出决议。
人工智能范畴包括几个分支，它们目前正处于鼎盛时期。将其可视化后就能准确地知道我们在说什么：

5. 数据发掘

数据发掘是一项运用数据探求技术发现一些风趣(而不分明)的形式的技术。
什么形式？例如：根据某些特征对数据停止分组的方式、异常检测(稀有值)、某些观察值与其他值之间的相关性、某些事情的延续性、行为的辨认等。

数据发掘运用机器学习等方法。
6. 机器学习

机器学习是人工智能最重要的分支。它的义务是：研讨和开发技术，使机器可以在没有人类明白指令的状况下自学，从而执行特定的义务。
机器将从输入数据集(称为样本或训练数据)中学习，根据算法检测到的形式建立数学模型。该模型的最终目的是对之后来自相反数据源的数据停止(准确的)预测或决策。
传统的机器学习次要有两种类型：
· 监督学习：当训练数据被“标记”时。这意味着，对于每个样本，我们都有与观察到的变量(输入)和我们想要学习预测或分类的变量(输入、目的或因变量)相对应的值。在这种类型中，我们找到了回归算法(预测数值的算法)和分类算法(输入仅限于某些分类值时)。
· 无监督学习：当训练数据没有标记时(我们没有目的变量)。这里的目的是找到某种结构或形式，例如对训练样本停止分组，这样我们就可以对将来的样本停止分类。
传统的机器学习曾经让位于更复杂或更古代的学习类型：
· 集成方法：基本上是几种算法结合运用，将它们的结果结合起来以获取更好的结果。虽然XGBoost仰仗在Kaggle的成功而得名，但最常见的例子还是随机森林。
· 强化学习：机器经过反复试误来学习，这得益于它对周围环境的迭代做出的反馈。你能够听说过AlphaGo或AlphaStar（在《星际争霸2》中实力碾压人类）。
· 深度学习：皇冠上的宝石……
7. 深度学习

深度学习是机器学习中的一个子范畴。

它基于人工神经网络的运用。人工神经网络是一个计算模型，具有分层结构，由互相衔接的节点共同工作而构成。这个名字的灵感来自(或试图模拟)大脑的生物神经网络。

虽然神经网络曾经被研讨和运用多年，但该范畴的停顿不断很缓慢；次要是限于计算才能不足。虽然深度学习近些年来获得蓬勃发展，这多少要归功于神经网络训练采用了CPU，但其末尾不过才十年。
人们普遍以为：任何机器学习成绩，无论多么复杂，都可以经过神经网络处理，只需把它做得足够大就行了。如今，深度学习的发展带动了人工智能其他范畴的发展；无论是更传统的范畴(改善获得的结果)，还是最盛行的范畴：自然言语处理、人工视觉、语音辨认、逼真多媒体内容的生成等。
8. 商业智能(BI)

这个术语指在公司外部运用数据，协助经理做出决策。
BI工具(报告、仪表板)告诉我们发生了什么，因此基于这些工具的决策将是被动的。

一个随机仪表板

9. 商业分析(BA)

它是传统商业智能的退化，应用大数据的提高，使企业可以探求数据，并与更多的数据交互，这些数据不限类型不限来源；一切这些(几乎)都是实时的。它还应用了数据迷信范畴的提高，因此从数据中获得的发现将更有价值。
BA工具告知我们过去和如今发生的；它们也会根据我们的行为预测将来，甚至模拟能够的将来。因此，所做的决议能够是自动的，而不是被动的。

BA的目的是使整个公司都能从这些发现中受益，这意味着公司在一切范畴都能做出更好(和更快)的决策。

留言点赞关注

我们一同分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

笑点来了 · 2019-5-20 08:45:47

分享了

123788999 · 2019-5-21 15:15:27

来啊，互相伤害啊

撒哈拉的寂寞 · 2019-5-22 10:56:00

广告位，，坐下看看

		自动登录	找回密码
密码			立即注册

数据迷信、数据湖、人工智能、数据发掘、机器学习…到底是什么？

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们