MIT发布首个贝叶斯「数据清洗」机器人！8小时洗200万条数据

宇智波八夜 · 2021-6-19 10:56:44

吴恩达说AI模型里百分之八十的工作要放在数据上，而数据清洗又是保证模型质量的关键步骤，它触及到范畴知识等等，往往很难自动化，MIT最近发布了一个自动数据清洗机器人，有望摆脱手工清洗数据！

脏数据可以说是一切AI从业者、数据分析师、数据迷信家的噩梦。

好音讯来了！
麻省理工学院的研讨人员最近带来了一种全新的系统PClean，可以自动地清洗脏数据，如错误、值缺失、拼写错误和值不分歧。

并且还可以根据概率统计出常识知识来推断信息。
这个名为 PClean 的系统是概率计算项目(Probabilistic Computing Project)研讨人员编写的针对特定范畴的概率编程言语，旨在简化人工智能运用程序的开发并完成自动化，例如工夫序列和数据库停止建模)。
根据Anaconda和Figure Eight所做的调查，清洗数据能够会占用数据迷信家四分之一的工夫。如何将这个义务自动化，不断以来都是一个具有应战性的义务。由于不同的数据集需求不同类型、不同层次的清算，而且明晰过程常常需求依赖常识来对世界上的物体停止判别，例如一个城市表中，需求判别哪些值不属于这列。
PClean 为这类判别提供了一个通用的常识模型，可以根据特定的数据库和错误类型停止定制化操作。
PClean 运用基于知识的方法来自动化数据清洗的过程: 即用户在定义数据的时分，曾经隐含包括了数据库的背景知识以及能够出现的各种成绩。
例如，有一个场景，当清算公寓列表数据库中的国家称号的时分，假如有人说他们住在比佛利山庄，但是没有留下任何其他信息怎样办？虽然在加州有著名的比弗利山庄，但在佛罗里达州、密苏里州和德克萨斯州也有一个，而且在巴尔的摩有一个被称为比弗利山庄的社区。你怎样知道这个人住在哪里？这就是 PClean 这门脚本言语创造的初衷。

用户可以向 PClean 提供有关域以及数据能够如何损坏的背景知识。PClean 经过常识性概率推理将这些知识结合起来得出答案。
例如，假如对租金类的常识有更多的了解，PClean 就能推断正确的比弗利山是在加利福尼亚，由于被调查者寓居的地方的租金成本很高。

PClean 拉近人机之间间隔

这篇论文的第一作者是MIT电子工程和计算机迷信系(EECS)的博士生Alex Lew，合著者还包括 EECS 的博士生 Monica Agrawal、 EECS 的副教授 David Sontag 和脑与认知迷信系的首席研讨迷信家 Vikash k. Mansinghka。
他们以为PClean 提供了一种从计算机中检索常识的一种方法，就像人们寻求彼此协助的方式一样。
当你向冤家寻求协助时通常比向电脑寻求协助要容易。这是由于在大多数编程言语中，程序员必须给出一步一步的明白指令，这种指令不能假定计算机具有任何关于世界或义务的上下文，甚至不能假定计算机具有常识推理才能。
但对于人类，可以假设一切聊天的单方有共同的常识。

PClean可以让我告诉计算机我所知道的成绩，编码的背景知识就像我向一个协助我清算数据的人解释的那样。我还可以给出 PClean 我曾经发现的疾速处理成绩的技巧。
Hanna Pasula和其他来自加州大学伯克利分校Stuart Russell实验室的研讨人员在2003年的一篇论文中提出，基于陈述性、生成性知识的概率性数据清洗能够比机器学习提供更高的准确性。
加州大学伯克利分校(UC Berkeley)计算机迷信教授Russell表示，在理想世界中，确保数据质量是一个宏大的成绩，几乎一切现有的处理方案都是暂时性的、昂贵的，而且容易出错。
共同作者 Agrawal也大吹大擂，PClean 是第一个可扩展的、经过良好设计的、基于生成式数据建模的通用途理方案，这一定是正确的方向，结果不言自明。现有的数据清算方法在表达才能方面遭到更多的限制，这能够愈加用户敌对，但是代价是限制性太强。此外，我们发现 PClean 可以扩展到非常大的数据集。
基于概率编程的最新停顿，麻省理工学院概率计算项目建立的一个新的人工智能编程模型，使得运用人类知识的理想模型来解释数据变得愈加容易。
PClean对于数据的修复基于贝叶斯推理，这种方法结合了先验概率（给定的手头数据）和后验概率，可以对填补的数据给出一个概率值。

做出这种不确定的决策的才能是概率编程的核心——由数据集告诉计算机它能够会看到什么样的东西，并让计算机自动运用这种才能以便找出能够正确的答案。
PClean 是第一个贝叶斯数据清洗系统，它可以结合范畴专业知识和常识推理，自动清洗数百万条记录的数据库，次要包括了三个创新：
首先，PClean 的脚本言语可以让用户对他们所了解的常识信息的停止编码。这就产生了更准确的模型，即便对于复杂的数据库也是如此。
其次，PClean 的推断算法运用了一种两阶段的方法，基于一次处理一条记录的方式来对如何清算记录做出明智的猜测，然后再次调用其判别函数来修复错误。这将产生稳健、准确的推断结果。
第三，PClean 提供了一个自定义编译器，用于生成疾速推理代码。这使得 PClean 可以以比多种相似方法更快的速度在万条记录的数据库上运转。
PClean 用户可以向 PClean 提示如何更有效地推理他们的数据库，并调整其功能ーー这与以前的数据清算概率编程方法不同，后者次要依赖于通用推理算法，而这些算法往往过于缓慢或不准确。
与一切概率程序一样，该工具工作所需的代码行数比其他最先进的选项少得多: PClean 程序只需求大约50行代码就可以在准确性和运转工夫方面超过基准测试。相比之下，一个简单的贪吃蛇游戏需求100行代码，而《我的世界》则需求超过100万行的代码。

在他们刚刚在2021年Society for Artificial Intelligence and Statistics上发表的论文中，作者们展现了 PClean 经过运用 PClean 来检测错误和估算220万行医疗保险医生比较国家数据集中的缺失值来扩展包含数百万记录的数据集的才能。运转了7个半小时后，PClean 发现了8000多个错误。然后，作者经过手工验证(经过在医院网站和医生 LinkedIn 页面上的搜索) ，他们中超过96% 的人以为，PClean 提出的修正方法是正确的。
由于 PClean 是基于贝叶斯概率的，它也可以给出校准的不确定性的估计。“它可以维持多种假设ーー给你分级判别，而不只仅是是/否的回答。这可以建立信任，并协助用户在必要时覆盖 PClean。例如，你可以看到一个判别，其中 PClean 是不确定的，并告诉它正确的答案。然后，它可以根据你的反馈更新其他的判别。
这种将人类判别与机器判别互相交错的互动过程具有很多潜在价值。我们以为，PClean 是一种新型人工智能系统的早期例子，它可以告诉人们更多的人们所知道的信息，在不确定的时分报告，以更有用的、相似人类的方式推理和与人交流。
DeepMind 的资深研讨迷信家David Pfau在一条推文中指出，PClean 满足了一种商业需求:思索到绝大多数商业数据不是狗的图片，而是关系数据库和电子表格中的条目，像这样的事情还没有像深度学习那样成功，真是个奇观。

利益、风险和监管

PClean 使得将混乱、不分歧的数据库衔接到干净的记录中变得更容易，而不需求像目前以数据为中心的公司那样，在人力和软件系统上停止大规模投资。这有潜在的社会利益，但也有风险，其中包括，经过将来自多个公共来源的不残缺信息结合起来，PClean 能够会让侵犯人们隐私的成本更低、更容易，甚至能够去匿名化。我们最终需求更细致的数据、更弱小的人工智能和隐私监管，以减轻这些危害，与机器学习方法相比，PClean 能够允许更细粒度的监管控制。
例如，PClean 不只可以告诉我们它合并了两个指向同一个人的记录，还可以告诉我们它为什么这样做，我可以本人判别我能否赞同。我甚至可以告诉 PClean 只思索合并两个条目的某些缘由。
不幸的是，无论数据集被如何公高山清算，隐私成绩依然存在。
有些人希望应用 PClean 改进旧事和人道主义运用的数据质量，例如反腐败监测和整理提交给州选举委员会的捐助者记录。阿格拉瓦尔说，她希望 PClean 能腾出数据迷信家的工夫，专注于他们关怀的成绩，而不是清洗数据。

参考材料：

https://github.com/probcomp/PClean

http://proceedings.mlr.press/v130/lew21a/lew21a.pdf

编辑：王菁

校正：林亦霖

86741697 · 2021-6-19 11:08:07

用poison data可以毒死AI

筱筱ye · 2021-6-19 11:09:54

#绿色旧事# 观察

520手掌心 · 2021-6-19 11:13:15

为什么把筛查数听说成“清洗”，为了听上去高大上吗？

嗯哼嗯哼蹦擦侧 · 2021-6-19 11:18:49

分享了

Ni-Co · 2021-6-19 11:24:56

分享了

viin921 · 2021-6-19 11:32:51

分享了

笑点来了 · 2021-6-19 11:37:58

分享了

倾城小熊 · 2021-6-19 11:40:46

分享了

唐角263 · 2021-6-19 11:43:38

分享了

		自动登录	找回密码
密码			立即注册

MIT发布首个贝叶斯「数据清洗」机器人！8小时洗200万条数据

本帖子中包含更多资源

大神点评15

最近发表

公社版块

关注我们