机器学习的重中之重：从顶尖学术论文中学习数据预处理

坤叔叔叔 · 2020-6-30 13:12:33

全文共2070字，估计学习时长8分钟

图源：cecs anu

作为工作中最关键的部分，数据预处理同时也是大多数数据迷信家耗时最长的项目，他们大约80%的工夫花在这下面。

这些义务有怎样重要性？有哪些学习方法和技巧？本文就将重点引见来自著名大学和研讨团队在不同培训数据主题上的学术论文。主题包括人类注释者的重要性，如何在相对较短的工夫内创建大型数据集，如何安全处理能够包含公家信息的训练数据等等。

1. 人类注释器（human annotators）是多么重要？

本文引见了注释器质量如何极大地影响训练数据，进而影响模型的准确性的第一手材料。在这个心情分类项目里，Jožef Stefan研讨所的研讨人员用多种言语分析了sentiment-annotated tweet的大型数据集。

风趣的是，该项目的结果表明顶级分类模型的功能在统计学上没有严重差异。相反，人类注释器的质量是决议模型准确性的更大要素。

为了评价他们的注释器，团队运用了注释器之间的认同过程和自我认同过程。研讨发现，虽然自我认同是去除表现不佳的注释器的好方法，但注释者之间的认同可以用来衡量义务的客观难度。

研讨论文：《多言语Twitter心情分类:人类注释器的角色》（MultilingualTwitter Sentiment Classification: The Role of Human Annotators）

作者/供稿人:Igor Mozetic, Miha Grcar, Jasmina Smailovic(一切作者均来自Jozef Stefan研讨所)

出版/最后更新日期：2016年5月5日

2.机器学习的数据搜集调查

这篇论文来自韩国先进迷信技术研讨所的一个研讨团队，非常合适那些希望更好地了解数据搜集、管理和注释的初学者。此外，本文还引见和解释了数据采集、数据扩大和数据生成的过程。

对于刚接触机器学习的人来说，这篇文章是一个很好的资源，可以协助你了解许多常见的技术，这些技术可以用来创建高质量的数据集。

研讨论文:《机器学习的数据搜集调查》（A Survey on Data Collection for MachineLearning）

作者/供稿人: Yuji Roh, Geon Heo, Steven Euijong Whang (一切作者均来自韩国迷信技术院)

出版/最后更新日期：2019年8月12日

3.用于半监督式学习和迁移学习的高级数据加强技术

目前数据迷信家面临的最大成绩之一就是获得训练数据。也可以说，深度学习所面临最大的成绩之一，是大多数模型都需求大量的标签数据才能以较高的精度发挥作用。

为了处理这些成绩，来自谷歌和卡内基·梅隆大学的研讨人员提出了一个在大幅降低数据量的状况下训练模型的框架。该团队提出运用先进的数据加强方法来有效地将噪音添加到半监督式学习模型中运用的未标记数据样本中，这个框架可以获得令人难以置信的结果。

图源：unsplash

该团队表示，在IMDB文本分类数据集上，他们的方法只需在20个标记样本上停止训练，就可以超越最先进的模型。此外，在CIFAR-10基准上，他们的方法表现优于此前一切的方法。

论文标题：《用于分歧性训练的无监督数据加强》（UnsupervisedData Augmentation for Consistency Training）

作者/供稿人：Qizhe Xie (1,2), Zihang Dai (1,2), Eduard Hovy (2),Minh-Thang Luong (1), Quoc V. Le (1) (1 – Google研讨院，谷歌大脑团队, 2 – 卡耐基·梅隆大学)

发布日期 / 最后更新：2019年9月30日

4.应用弱监督对大量数据停止标注

对于许多机器学习项目来说，获取和注释大型数据集需求花费大量的工夫。在这篇论文中，来自斯坦福大学的研讨人员提出了一个经过称为“数据编程”的过程自动创建数据集的系统。

上表是直接从论文中提取的，运用数据编程(DP)显示了与远程监督的ITR方法相比的精度、召回率和F1得分。

该系统采用弱监管策略来标注数据子集。产生的标签和数据能够会有一定程度的噪音。但是，该团队随后经过将训练过程表示为生成模型，从数据中去除噪音，并提出了修正损失函数的方法，以确保它对“噪音感知”。

研讨论文:《数据编程:疾速创建大型训练集》（DataProgramming: Creating Large Training Sets, Quickly）

作者/供稿人:Alexander Ratner, Christopher De Sa, Sen Wu, DanielSelsam, Christopher Re(作者均来自斯坦福大学)

发布/最后更新日期:2017年1月8日

5.如何运用半监督式知识转移来处理个人身份信息(PII)

来自谷歌和宾夕法尼亚州立大学的研讨人员引见了一种处理敏感数据的方法，例如病历和用户隐私信息。这种方法被称为教师集合公有化（PATE），可以运用于任何模型，并且可以在MNIST和SVHN数据集上完成最先进的隐私/功效权衡。

但是，正如数据迷信家Alejandro Aristizabal在文章中所说，PATE所设计的一个次要成绩为该框架要求先生模型与教师模型共享其数据。在这个过程中，隐私得不到保障。

为此Aristizabal提出了一个额外的步骤，为先生模型的数据集加密。你可以在他的文章Making PATEBidirectionally Private中读到这个过程，但一定要先阅读其原始研讨论文。

论文标题：《从隐私训练数据停止深度学习的半监督式知识转移》（Semi-SupervisedKnowledge Transfer for Deep Learning From Private Training Data）

作者/供稿人：Nicolas Papernot（宾夕法尼亚州立大学）、Martin Abadi（谷歌大脑）、Ulfar Erlingsson（谷歌）、Ian Goodfellow（谷歌大脑）、Kunal Talwar（谷歌大脑）。

发布日期 / 最后更新：2017年3月3日

图源：unsplash

阅读顶尖学术论文是了解学术前沿的不二法门，同时也是从别人实际中内化重要知识、学习优秀研讨方法的好办法，多读读论文相对会对你有协助。

留言点赞关注

我们一同分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

麦客卡尔布鲁氏 · 2020-6-30 18:31:30

撸过

1221lf · 2020-7-1 16:31:14

结束了嘛？有种还没完成的感觉，嘻嘻

三番士526 · 2020-7-2 14:21:30

高手云集果断围观

		自动登录	找回密码
密码			立即注册

机器学习的重中之重：从顶尖学术论文中学习数据预处理

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们