雷锋网AI科技评论编者按:自然语言并不等于英语。然而,目前NLP的研究中,大家潜意识里却认为英语是一种具有足够代表性的语言。而除英语以外的其他语言研究则通常被认为是“特殊语言”,在审稿人的眼中同等情况下对它们的研究则不如英语研究重要。这本质上是对语言的“以偏概全”。近日华盛顿大学语言学家Emily M. Bender为此撰写了一篇文章《The Bender Rule: On Naming the Languages We Study and Why It Matters》,指出其中存在的问题,以及提出对学习语言进行命名和标记的方案。AI科技评论对其文章做如下不改变原意的编译。
在Bender 2011(《关于实现和评估在NLP领域中的语言独立性》,“On Achieving and Evaluating Language-Independence in NLP”)中,我列出了语言无关NLP的“dos and don' ts”。它包括了后来被称为Bender Rule的早期声明(雷锋网):
Do – 指明正在学习的语言类型,即使它是英语。要明确一点,我们正在研究的是一种特定的语言,这意味着由此开发的技术可能只适用于特定的语言。相反,如果不去声明正在使用的数据的语言类型,就会给工作带来是语言独立的假象。(Bender 2011:18)