NLP | 自然言语处理范畴打破性停顿，ACL2020获奖论文集锦

camber · 2020-7-11 06:58:33

ACL2020最佳论文奖

标题：

超越准确性:运用检查表对NLP模型停止行为测试

摘要：

虽然测量保持的准确性不断是评价泛化的次要方法，但它常常高估了NLP模型的功能，而评价模型的替代方法则着重于单个义务或特定行为。受软件工程中行为测试原理的启示，我们引入了CheckList，这是一种用于测试NLP模型的不可知论方法。CheckList包括有助于片面测试构想的通用言语功能和测试类型矩阵，以及用于疾速生成大量不同测试案例的软件工具。我们经过测试三个义务来阐明CheckList的适用性，以辨认商业模型和最新模型中的关键缺点。在用户研讨中，担任商业心情分析模型的团队在经过广泛测试的模型中发现了新的可操作错误。在另一项用户研讨中，具有CheckList的NLP从业人员创建了两倍的测试，发现的错误几乎是没有它的用户的三倍。

在这项工作中，我们提出了CheckList，这是一种用于NLP模型的综合行为测试的新评价方法和随附的工具1。CheckList经过提供适用于大多数义务的言语功能列表来指点用户停止测试。为了将潜在的功能缺点分解为特定的行为，CheckList引入了不同的测试类型，例如在存在某些扰动的状况下的预测不变性，或对一系列健全性检查的功能。最后，我们对CheckList的完成包括多个笼统，可协助用户轻松生成大量测试用例，例如模板，词典，通用扰动，可视化和上下文感知建议。

关注人工智能学术前沿回复：acl01

5秒收费获取论文pdf文档，及项目源码
ACL2020最佳主题论文

标题：

迈向NLU：关于数据时代的意义，方式和了解

摘要：

大型神经言语模型在许多NLP义务上的成功令人振奋。但是，我们发现这些成功有时会惹起炒作，这些模型被描画为了解言语或捕获意义。在这篇立场文件中，我们以为，一个只接受方式训练的系统后天无法学习意义。为了与ACL 2020主题“清点我们曾经做过的事情和将要做的事情”保持分歧，我们以为，对方式和意义之间的区别的明晰了解将有助于引导该范畴朝着围绕自然言语了解的更好的方向发展。

在本文中，我们以为，与当前的一些炒作相反，意义不能仅从方式中学到。这意味着甚至像BERT这样的大型言语模型也不会学习含义; 他们学习了将意义反映为言语方式的方法，这在运用程序中非常有用。 对于基于这些LM的研讨，我们就如何保持健康但不夸张的悲观提出了一些想法。

特别地，这篇文章可以被看作是一个呼吁准确的言语运用时，谈到目前的形式的成功和谦逊的处理自然言语。有了这个，我们希望鼓励在我们的范畴自上而下的观点，我们以为这将协助我们选择正确的山峰攀爬到相似人类的NLU。

关注人工智能学术前沿回复：acl02

5秒收费获取论文pdf文档，及项目源码
ACL2020最佳DEMO论文

标题：

GAIA: 细粒度多媒体知识提取系统

摘要：

我们展现了第一个片面的、开源的多媒体知识提取系统，它将来自各种来源和言语的大量非结构化、异构的多媒体数据流作为输入，并根据丰富的、细粒度的本体创建一个连接的、结构化的知识库、索引实体、关系和事情。我们的系统GAIA 可以无缝搜索复杂的图形查询，并检索包括文本，图像和视频在内的多媒体证据。在最近的NIST TAC SM-KBP2019评价中，GAIA获得了最佳功能。该系统可在GitHub和DockerHub上公开获得，并提供残缺的文档。

图1:跨媒体知识交融的示例，并查看可视化知识提取的外部状况

图2:由自动从多媒体多言语旧事报道中提取的事情构建的面向用户的知识网络视图。我们显示事情参数、类型、摘要、相似事情，以及从相应图像和视频中提取的视觉知识。

我们展现了一个先进的多媒体多言语知识抽取和事情引荐系统。该系统运用户可以方便地搜索从多媒体、多言语来源(如文本、图像、视频、语音和OCR)提取、链接和总结复杂事情的知识网络。

关注人工智能学术前沿回复：acl03

5秒收费获取论文pdf文档，及项目源码
ACL2020最佳论文提名奖1

标题：

不要中止预训练：使言语模型顺应不同范畴和义务

摘要：

对各种来源的文本停止预先训练的言语模型构成了明天NLP的基础。鉴于这些广泛覆盖的模型的成功，我们研讨了为目的义务的范畴定制一个预先训练好的模型能否照旧有用。我们展现了一项跨四个范畴(生物医学和计算机迷信出版物、旧事和回复)和八个分类义务的研讨，表明范畴预训练的第二阶段(范畴自顺应预训练)在高资源和低资源设置下都能提高功能。此外，即便在范畴自顺应预训练之后，顺应义务的未标记数据(义务自顺应预训练)也会提高功能。最后，我们证明了顺应运用简单数据选择策略扩大的义务语料库是一种有效的选择，特别是在范畴自顺应预训练资源能够不可用的状况下。总的来说，我们分歧发现多相预训练在义务表现上有很大的提高。

图1:数据分布的阐明。义务数据由可观察义务分布组成，通常非随机采样自更大的目的域内更宽的分布(浅灰色省略)，该区域不一定是原始LM预训练域所包含的区域之一——虽然能够存在堆叠。我们将讨论对来自义务分布和范畴分布的数据停止持续预培训的好处。

我们研讨了使预训练的LMs顺应这些范畴和义务的几种变化，总结在表10中。我们的实验表明，即便是一个由数亿个参数组成的模型，也很难对单一文本范畴的复杂性停止编码，更不用说对一切言语停止编码了。我们表明，针对特定义务或小语料库对模型停止预训练可以带来分明的好处。我们的发现表明，通过辨认和运用与范畴和义务相关的语料库来专门化模型的并行工作来补充越来越大的LMs上的工作能够是有价值的。

虽然我们的结果证明了这些方法如何改进ROBERTA，一个弱小的LM，但我们研讨的方法足够通用，适用于任何预先训练的LM。我们的工作指向了许多将来的方向，例如为TAPT更好地选择数据，有效地将大型预训练言语模型顺应到悠远的范畴，以及在顺应之后构建可重用的言语模型。

关注人工智能学术前沿回复：acl04

5秒收费获取论文pdf文档，及项目源码
ACL2020最佳论文提名奖2

标题：

深化于BLEU：重新评价自动机器翻译评价目的的评价

摘要：

自动目的是开发和评价机器翻译系统的基础。判别自动度量标准能否与人类评价的黄金标准相分歧不是一个简单的成绩。我们表明，当前的度量标准判别方法对用于评价的翻译非常敏感，尤其是存在异常值时，这通常会导致对度量有效性产生错误的自信结论。最后，我们转向成对系统排名，开发一种在针对人类判别的自动度量下对功能改进停止阈值处理的方法，该方法可以量化I型和II型错误，即，可以接受的，显着的人类系统质量差异，以及显着的人为差异被回绝的人类差异。总之，这些发现表明对机器翻译中的度量评价和系统功能评价的协议停止了改进。

总体而言，本文添加了淘汰BLEU作为理想上的标准度量标准的理由，而取而代之的是运用CHRF，YISI-1或ESIM等其他度量标准。他们在评价阅历改进方面更弱小。 但是，人工评价必须一直是黄金标准，并且为了持续改进翻译，以在以前的工作上获得严重改进，一切自动度量标准都会导致替代品不足。

总而言之，我们的次要建议是：在评价目的时，请运用第4.2节中概述的技术在计算Pearson s r之前除去异常值。在评价MT系统时，请中止运用BLEU或TER来评价MT，而应运用CHRF，YISI-1或ESIM。中止运用评价目的的纤细变化作为得出重要阅历结论的独一基础，并确保手动评价支持这些结论。

关注人工智能学术前沿回复：acl05

5秒收费获取论文pdf文档，及项目源码
ACL2020最佳主题论文提名奖

标题：

我们怎样才能加速向“类人类”言语泛化的进程?

摘要：

本文描画和批判了预训练前不确定的相反分布(PAID)评价范式，它曾经成为衡量自然言语了解停顿的中心工具。该形式包括三个阶段:(1)对恣意大小的语料库停止单词预测模型的预训练;(2)对代表分类义务的训练集停止微调(迁移学习);(3)评价测试集从训练集的分布一样。这种形式倾向于简单,低偏向架构,,首先,可以处理大量的数据,第二,可以捕获一个特定的数据集的细粒度的统计特性,无论这些属性能够会推行义务之外的数据集的例子。这与人类,他们从比这个评价范例所喜爱的系统少几个数量级的数据中学习言语，并以分歧的方式概括出新的义务。我们倡导用奖励体系结构的范例来补充或取代PAID，这些范例像人类一样疾速而有力地概括。

我曾经描画了当前盛行的PretrainingAgnostic Identally Distributed范式，该范式选择的模型可以轻松地在有限量的数据上停止训练，并且擅长捕获微调数据集中的恣意统计形式。虽然这样的模型在运用程序中具有相当大的价值，但我主张建立一个带有排行榜的并行评价生态系统，假如有人能激励提高，从而奖励模型以相似于人的方式泛化的才能。相似人的归纳成见将提高我们的模型从有限的数据中学习言语结构和新义务的才能，并使模型的泛化行为更符合人类的希冀，从而减少了不遵照言语结构的肤浅启示式方法的吸引力以及普遍性在对抗性示例中，从人的角度来看微乎其微的输入更改结果以不希望的方式影响了网络的行为。

关注人工智能学术前沿回复：acl06

5秒收费获取论文pdf文档，及项目源码
ACL2020最佳DEMO论文提名奖1

标题：

Torch结构：深层结构预测库

摘要：

关于NLP的结构化预测的文献描画了丰富的分布和算法集合，包括序列、分段、比对和树;但是，这些算法很难在深度学习框架中运用。我们引见了Torch-Struct，一个用于结构化预测的库，旨在应用和集成向量化的、基于自动区分的框架。TorchStruct包括广泛的概率结构集合，经过一个简单而灵敏的基于分布式的API访问，该API可以衔接到任何深度学习模型。该库应用批处理的向量化操作，并应用自动区分产生可读、疾速和可测试的代码。在外部，我们还包括一些通用的优化，以提供交叉算法的效率。实验表明，相对于疾速基线，功能有分明提高，案例研讨证明了该库的好处。

图1:超过1000个标记序列的二叉树分布。着色显示每个跨度的边际概率。Torch-Struct是NLP中常用CRF分布的优化集合，旨在与深度学习框架集成。

在将来，我们希望支持运用结构化模型的研讨和消费运用程序。我们还置信，该库为经过概率API构建可解释性、控制和可视化的通用工具提供了坚实的基础。最后，我们希望探求进一步的优化，使核心算法与高度优化的神经网络组件竞争。

关注人工智能学术前沿回复：acl07

5秒收费获取论文pdf文档，及项目源码
ACL2020最佳DEMO论文提名奖2

标题：

Prta：一个支持分析旧事宣传技术的系统

摘要：

2016年美国总统大选、英国脱欧、新冠肺炎疫情等近期事情，凸显了网络虚伪信息的危害。曾经有很多的研讨集中在理想查证和虚伪信息检测上。但是，很少有人关注用于传达宣传信息的详细修辞和心思技巧。揭示这些技术的运用可以协助提高媒体素养和批判性思想，并最终有助于限制假旧事和虚伪信息运动的影响。

Prta :(Propaganda Persuasion Techniques Analyzer)

允许用户经过突出宣传技术发生的跨度，定期阅读抓取的文章，并根据其运用的宣传技术停止比较。该系统进一步报告有关这类技术运用的总体和长期统计数据，或根据用户根据工夫间隔、关键字和/或媒体的政治倾向指定的过滤标准。此外，它允许用户经过公用接口或API分析任何文本或URL。

关注人工智能学术前沿回复：acl08

5秒收费获取论文pdf文档

偌小兜 · 2020-7-11 12:25:46

我反手就是一个么么哒，不谢

你缺了吗 · 2020-7-12 13:19:57

支持，赞一个

mlydj · 2020-7-13 16:34:04

我只是路过，不发表意见

		自动登录	找回密码
密码			立即注册

NLP | 自然言语处理范畴打破性停顿，ACL2020获奖论文集锦

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们