自然言语并不等于英语。但是,目前NLP的研讨中,大家潜看法里却以为英语是一种具有足够代表性的言语。而除英语以外的其他言语研讨则通常被以为是“特殊言语”,在审稿人的眼中同等状况下对它们的研讨则不如英语研讨重要。这本质上是对言语的“以偏概全”。近日华盛顿大学言语学家Emily M. Bender为此撰写了一篇文章《The Bender Rule: On Naming the Languages We Study and Why It Matters》,指出其中存在的成绩,以及提出对学习言语停止命名和标记的方案。AI科技回复对其文章做如下不改变原意的编译。
在Bender 2011(《关于完成和评价在NLP范畴中的言语独立性》,“On Achieving and Evaluating Language-Independence in NLP”)中,我列出了言语有关NLP的“dos and don' ts”。它包括了后来被称为Bender Rule的早期声明:
Do – 指明正在学习的言语类型,即便它是英语。要明白一点,我们正在研讨的是一种特定的言语,这意味着由此开发的技术能够只适用于特定的言语。相反,假如不去声明正在运用的数据的言语类型,就会给工作带来是言语独立的假象。(Bender 2011:18)