自然言语不等于英语，为什么NLPer该当看法到这个成绩，以及该怎样做？

老十八1997 · 2019-10-5 06:22:06

作者 | Emily M. Bender

单位 | 华盛顿大学编译 | 栗峰&Camel

自然言语并不等于英语。但是，目前NLP的研讨中，大家潜看法里却以为英语是一种具有足够代表性的言语。而除英语以外的其他言语研讨则通常被以为是“特殊言语”，在审稿人的眼中同等状况下对它们的研讨则不如英语研讨重要。这本质上是对言语的“以偏概全”。近日华盛顿大学言语学家Emily M. Bender为此撰写了一篇文章《The Bender Rule: On Naming the Languages We Study and Why It Matters》，指出其中存在的成绩，以及提出对学习言语停止命名和标记的方案。AI科技回复对其文章做如下不改变原意的编译。

一、高资源言语与低资源言语

自然言语处理（NLP）范畴的停顿取决于言语资源的存在。通常这些资源需求有带黄金标准（gold standard）的标签或注解来反映NLP系统对当前义务的预期输入。无监督、弱监督、半监督或远程监督等机器学习技术降低了对标记数据的依赖性，但即便是运用这些方法，也异样需求足够多的标记数据来评价系统的功能，此外对于数据需求量极大的机器学习技术，通常也需求大量未标记数据的支撑。

这样的需求导致了在NLP范畴中出现了高资源言语和低资源言语的数字鸿沟。

高资源的言语种类只要几种，包括英语、汉语、阿拉伯语和法语，或许还可以将德语、葡萄牙语、西班牙语、芬兰语包括出来。这些言语具有大量可访问的文本和语音资源，以及一些注释资源如树图材料库（treebank）和评价集。

截止到2019年8月，LRE Map列出了961项英语资源，此外还有美式英语资源121项、德语资源216项、法语资源180项、西班牙语资源130项、汉语资源103项、日语资源103项。其他超过50项资源的言语只要葡萄牙语、意大利语、荷兰语、标准阿拉伯语和捷克语。世界上另外大约7000种其他的言语则只要极少的资源或没有。

异样值得强调的是，世界各地的研讨人员在次要的NLP会议上发表的大部分研讨工作都集中在高资源言语上，且不成比例地集中在英语上。

Robert Munro，SebastianMielke和我对NLP范畴的几个次要会议中的言语停止了一个调查，其结果如下：

虽然英语和汉语广泛被作为第一言语或第二言语运用，但显然NLP的研讨不该当只是去做这两种言语的研讨。

但很不幸，NLP堕入了一种恶性循环：除英语以外的其他言语研讨通常被以为是“特殊言语”，因此被以为同等状况下不如英语研讨重要。

NLP会议的审稿人常常会有这样一种错误的了解：将某一义务上的最先进程度等同于该义务在英语上获得的最先进程度；假如一篇论文不能与之停止比较，那他们就无法判别这个研讨能否是“有价值的”。

这里一个重要的要素是人们潜看法里以为英语是一种具有足够代表性的言语。当学习的资源是英语时，人们往往不会在名字中显示“英语”，这更滋长了这种曲解。

但英语既不是自然言语的代名词，也不是自然言语的代表。

二、英语不能代表全部

我最近在Widening NLP 2019大会的演讲中做了一个比喻，将NLP比作是一扇溅满了雨水的窗户。

我们知道NLP是一个跨学科的范畴，不同范畴的人所关注的视角也不相反。从事信息提取工作的人对用数字化言语编码的信息感兴味，这就像是人在屋内注视窗外的场景。而从事言语学工作的人则对言语的结构和形式以及它们与交际意图的关系很感兴味，这就相似于想要探求雨滴上去的形式以及它们是如何影响我们看窗外的风光。

把这个比喻再延伸一点，每一种言语（包括英语）都只是一扇有特定雨滴形式的窗户，各自都有它本人特有的风格。

以下我罗列了一些英语不能代表一切言语的缘由，这些缘由即便是在四姐上运用最广泛的言语中也没有得到广泛的共享：

1、它是一种行动言语，而不是符号言语。假如我们只做英语的研讨，我们就错失了一类重要的言语。

2、它有一个完善的、长期运用的、大致是基于发音拼写系统（phone-based orthographic system）。

“Phone-based”的意思是字母对应于单独的发音。英语拼写法仅近似于这个原理。西班牙语等其他言语，具有基于发音的拼写法系统愈加透明化，还有一些言语仅代表辅音（例如传统的希伯来语和阿拉伯语）或具有代表音节而不是单一声响的符号（例如马拉雅拉姆语，韩语或日语假名），或者运用逻辑系统（例如中文，或者自创汉字构成的日文;参见Handel 2019）。当然，世界上还有许多言语没有口语，或者口语的历史较短还没有发展出标准的拼写法。英语拼写的标准化理想上在很大程度上简化了NLP的义务，而我们常常没无看法到这个成绩。

3、英语的标准化拼写法提供了一个成为“word”的概念，不同“word”之间会有一个空格留白。

但是并不是一切言语都有这个特点，例如汉语、日语、泰语等，对于这些言语，它们的NLP义务都必须从分词末尾。

4、大部分的英语写作通常只运用在每台计算机上都能找到的低位ASCII字符。

在大多数状况下，当运用英语时我们都不用担心不常见的字符编码、不支持的Unicode符号等等。

5. 英语的屈折形状（inflectionalmorphology）相对较少，因此每个单词的方式比较少。

许多NLP范畴的技术都存在数据稀疏的成绩，只要当同一个词以多种不同的方式出如今高度变化的言语中时，这种成绩才会显得愈加严重。(基于字符n-gram的深度学习模型在一定程度上处理了这个成绩，但它照旧是英语和世界上许多言语之间的一个重要区别。)

6、英语有相对固定的语序。

与世界上许多言语相比，英语在词序上比较死板，在大多数状况下都保持主谓宾、描画词在名词后面、关系从句在后等等。假如不对更灵敏的词序文语停止测试，我们怎样会知道哪些系统在多大程度上依赖英语的这种特性？

7、英文表单能够会“不测”婚配数据库字段名、本体条目等。

许多言语技术经过将输入言语中的字符串映射到外部知识库或者将这些字符串转换为语法或语义表示从而完成特定义务的目的。当输入的字符串和知识库中的字段名或条目运用同一种言语时，处理快捷方式就可用了。但是这又能适用于多少种言语呢？

8、英语有大量可用的训练数据（比如用来训练BERT的3.3B言语符号）(Devlin et.al，2019)。

假如我们将全部的精神都集中在依赖大量的训练数据这种方法上，而这些数据却无法适用于世界上大多数的言语，我们将如何构建适用于其他言语的系统？异样，假如我们只注重运用这些技术的工作（例如在会议论文评审中），那么我们怎样能够等待在跨言语NLP上获得停顿呢？

三、Bender Rule

2009年，Tim Baldwin和ValiaKordoni在EACL上组织了一个研讨会，主题为“言语学与计算言语学之间的互动：良性的、恶性的还是空泛的？”（The Interaction between Linguistics andComputational Linguistics: Virtuous, Vicious or Vacuous?）当时，机器学习（深度学习之前）对NLP来说非常重要。很多人都在讨论围绕NLP的机器学习方法如何可以更经济，由于它们比以前基于规则的范式需求投入的言语专家更少。这在当时很盛行。

在这次会议上有人指出（出如今当时部分论文中），不对任何特定言语知识停止编码的NLP系统都是与“言语有关的”。

我反对这种观点。我在其中的一个研讨会上也发表了一篇论文，题为《言语干练！=言语独立：为什么NLP需求言语类型学》（Linguistically Naïve != Language Independent: Why NLP NeedsLinguistic Typology）。我以为假如我们只运用英语（或英语加上一小部分其他言语），我们无法判别所构建的系统能否真正合适于一切言语。仅仅由于没有直接编码有关英语的特定言语知识并不意味着该模型适用于一切的言语。

此外，假如目的是言语独立或跨言语运用系统，那我们最好充分应用言语知识。特别是，我们应该应用言语类型学范畴的研讨成果，该范畴研讨世界上各种言语的变化范围以及这种变化还存在的局限性。

在Bender 2011（《关于完成和评价在NLP范畴中的言语独立性》，“On Achieving and Evaluating Language-Independence in NLP”）中，我列出了言语有关NLP的“dos and don' ts”。它包括了后来被称为Bender Rule的早期声明：

Do – 指明正在学习的言语类型，即便它是英语。要明白一点，我们正在研讨的是一种特定的言语，这意味着由此开发的技术能够只适用于特定的言语。相反，假如不去声明正在运用的数据的言语类型，就会给工作带来是言语独立的假象。（Bender 2011:18）

但是，直到2019年，这段话才真正盛行起来。2018年11月，当我在编撰计算语义学和语用学的言语资源时，再次遇到这样头疼的事情：那些运用英语语料的论文往往没有阐明所讨论的言语是英语。于是我发了如下的推文：

2019年3月到5月，Nathan Schneider、Yuval Pinter、Robert Munro、Andrew Caines等人分别提出了“Bender Rule”或“Bender Clauses”。他们的不同之处在于命名所研讨言语的方式，作为论文评审人员应该讯问研讨者研讨的是哪种/些言语，或者当仅运用一种言语时该当对所研讨系统的言语独立性持怀疑态度。最终，BenderRule的声明合并为简单的一句话：一直注明你正在运用的言语。

在NAACL 2019和ACL 2019及其研讨会上，有几张poster在命名其言语时直接提到了Bender Rule。

这样的准绳似乎是不言而喻的，且很琐碎。但我很荣幸能以我的名字来命名这个准绳。由于我激烈地感觉到NLP范畴必须扩展范围，超越英语和多数几种精心研讨的言语。我置信，除非我们不再把英语当作默许言语，不再假装学习英语（且只学习英语）不是“language-specific”，否则我们永远无法做到这一点。

四、命名言语只是第一步

NLP范畴末尾思索“为言语命名”使我深受振奋，即便大部分工作运用的显然还是英语。

但是，随着NLP范畴的人们末尾处理NLP技术所带来的道德影响以及言语技术对用户和旁观者产生的负面影响（参见Hovy＆Spruit 2016，Speer2017，Grissom II 2019），我们该当明晰地看法到：关于训练和测试模型所运用的数据，我们应该提供更多信息。

首先是言语之间的差异性：一切言语都在不断地变化；除了那些运用人数极少的言语外，一种言语的不同变体之间总是存在着很大的差异。（参见Labov 1966，Eckert和Rickford2001）。这包括不同地域之间的差异，以及不同社会群体和社会身份相关的差异。针对某一特定人群的语音/文本/标志停止训练的模型不一定适用于其别人群，即便是在运用相反言语的人群中也是如此。

第二，模型会汲取训练文本中所包含的成见，而这些成见则来源于消费文本的人如何看法和议论这个世界。（参见Bolukbasi et.al 2016，Speer2017）。

为了避免以上两个成绩所带来的潜在成绩，Batya Friedman和我在 ( Bender & Friedman2018) 中提出了“数据声明”的概念，这是一种明晰记录NLP系统中运用数据集的做法。我们建议一切NLP系统都应该附带关于训练数据的详细信息，包括所触及的特定言语种类，选择数据的原理（如何选择数据以及为什么选择该数据），有关说话者和注释者的人口统计信息等等。当然，仅凭这些信息并不能处理成见的成绩，但它为处理这些成绩提供了能够性。

头图来源：http://images.wired.it/wp-content/uploads/2014/01/1390576102_language.jpg

数学与 AI「融通」，徐宗本院士停止超强“迁移学习”

张钹院士：人工智能的魅力就是它永远在路上 | CCAI 2019

Facebook 自然言语处理新打破：新模型才能赶超人类 & 超难 NLP 新基准

巴赫涂鸦创作者 Anna Huang 现身上海，倾情讲解「音乐生成」两大算法

希腊帅非 · 2019-10-5 12:01:39

有点兴趣，要有详细介绍就好啦。

xfsky2012 · 2019-10-5 20:51:17

确实不错，顶先

宝骏730 · 2019-10-6 21:29:03

我只是路过，不发表意见

		自动登录	找回密码
密码			立即注册

自然言语不等于英语，为什么NLPer该当看法到这个成绩，以及该怎样做？

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们