AI研讨人员携手发表更严厉的自然言语效能评测平台SuperGLUE

说谎。 · 2019-8-19 06:59:09

Facebook AI、DeepMind、纽约大学与华盛顿大学的AI研讨人员，在本周共同发表了SuperGLUE平台，这是一个专门用来测量人工智能（AI）自然言语处理（NLP）才能的功能评测平台，缘由是有愈来愈多的对话式AI系统在许多不同的评测上已达到下限，需求更大的应战来改善它们的NLP才能。

这是由于涵盖各种NLP义务的GLUE功能评测平台问世不到一年，便有许多NLP模型超越了GLUE上的人类基准功能。研讨人员阐明，AI社群的合作、NLP竞赛、各种评测平台的出炉、以及代码的释出，都让AI模型疾速改善，在GPT与BERT出炉后，GLUE上的模型功能更是大跃进，最近的模型已然超越人类功能。

不过，即便它们可以超越GLUE上特定义务的人类功能，却依然无法处理某些人类得以完美完成的义务，为了替NLP研讨设定一个全新且更高的门槛，SuperGLUE于焉诞生。

SuperGLUE包含8种不同的义务，其中一之为"选择合理的替代方案"（Choice of Plausible Alternatives，COPA），这是一个因果推理义务，系统先得到一个前提，之后即必须从两个能够的选择中判别其因果，人类在COPA义务的准确性通常可达100%，而BERT则是74%，代表AI模型还有很大的提高空间。

再以最近表现最佳的RoBERTa模型为例，它击败了目前一切的NLU系统，也在"多重句子阅读了解"（Multisentence Reading Comprehension，MultiRC）义务上超越人类功能，但在SuperGLUE上测试RoBERTa之后发现，RoBERTa在许多义务的表现上依然不及人类，阐明了即便是当今最先进的NLU系统，还是存在着某些局限性。

此外，研讨人员还打造了该范畴首个长篇问答材料集与功能评测，要求机器提供复杂且长篇的答案，这是现有算法从未被应战过的事。目前的问答系统次要为简答题，像是"水母有脑吗？"而新的应战则是希望机器可以了解更开放的成绩并提供更具深度的答案，例如"没有脑的水母怎样运作？"以期推进AI可合成不同来源的资讯，并正确回应这类的开放式成绩。

liping1957 · 2019-8-19 12:26:31

看帖要回，回帖才健康，在踩踩，楼主辛苦了！

万绿东源 · 2019-8-20 14:21:00

想知道楼主的感受，怎么样？

@Xizi_feukGQ3y · 2019-8-21 09:41:55

我有个小建议，楼主把内容写详细点吧才会吸引更多读者呀。

		自动登录	找回密码
密码			立即注册

AI研讨人员携手发表更严厉的自然言语效能评测平台SuperGLUE

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们