GLUE基准新打破：微软多义务模型初次超越自然言语人类基准

scccs · 2019-6-10 10:43:49

微软在 6 月 7 日在 GLUE 排行榜提交了一款新模型，该模型在 WNLI 上获得了 89.0% 的准确率，仅次于人类功能 95.9%。且之前大部分系统的功能在 65% 左右，该新模型将准确率一举提升了 20 多个百分点。

通用言语了解评价基准（GLUE）是用于评价和分析多种已有自然言语了解义务的模型功能的工具，模型基于在一切义务的平均准确率停止评价。WNLI（Winograd 自然言语推理）数据集是是 GLUE 中的一个数据集，它是来自（Levesque et al., 2011）的小型自然言语推理数据集。
根据 GLUE 排行榜，大部分系统在 WNLI 上获得的准确率为 65% 左右，直到最近这一数字才有了打破性停顿。6 月 5 号王玮提交的 ALICE large ensemble (Alibaba DAMO NLP) 系统在 WNLI 上获得了 80.8% 的准确率，6 月 7 号微软提交的
MT-DNN-ensemble 系统在 WNLI 上获得了 89.0% 的准确率，仅次于人类功能 95.9%。

当前 GLUE 排行榜（2019.06.10），微软 MT-DNN-ensemble 系统在 WNLI 完成了 89.0% 的准确率，接近人类程度；在 GLUE 基准上的平均得分为 87.2，比人类得分高出 0.1。
此前，机器之心曾报道过微软提出的新型 NLP 预训练模型打破了 BERT 在 GLUE 基准 11 项义务中的功能记录。当时微软模型在 WNLI 上的准确率仅为 65.1%。短短半年过去，微软 MT-DNN-ensemble 模型已将这一数字提升了将近 24%，完成了功能飞跃。

2018 年 12 月 23 日 GLUE 排行榜，目前的 MT-DNN（平均分 85.1）相比第一版（平均分 81.9）曾经有了很大的提升。
模型细节
根据模型描画，微软新模型 MT-DNN-ensemble 是一个用于结合训练一切义务的新型多义务框架，一切义务共享异样的结构，除了每项义务的目的函数不同。
从模型的命名可以看出来，MT-DNN-ensemble 就是 MT-DNN 的多模型集成。虽然 GLUE 描画页面写的 MT-DNN-ensemble 的参数量为 3.5 亿，与 MT-DNN 一样，但能够实践参数量要远远大于它。

MT-DNN-ensemble 地址：https://github.com/namisan/mt-dnn
关于 MT-DNN
目前，我们尚不知道 MT-DNN-ensemble 模型如何在 WNLI 完成如此宏大的功能飞跃。但根据 GitHub 项目，该新模型异样自创了论文《Multi-Task Deep Neural Networks for Natural Language Understanding》。
MT-DNN 模型的架构如下图所示。下面几层在一切的义务中共享，下面的几层表示特定义务输入。
单词序列（可以是一句话或者打包在一同的句子对）作为输入 X，先表示为一个嵌入向量序列，其中 l_1 中一个向量对应一个单词。然后 Transformer 编码器经过自留意机制捕捉每个单词的语境信息，在 l_2 中生成语境嵌入序列。这就是我们的多义务目的函数训练得到的共享语义表征。

表征学习 MT-DNN 模型的架构。下面的网络层在一切义务中都共享，下面的两层是针对特定义务。输入 X（一句话或句子对）首先表征为一个序列的嵌入向量，在 l_1 中每个词对应一个向量。然后 Transformer 编码器捕捉每个单词的语境信息并在 l_2 中生成共享的语境嵌入向量。最后，针对每个义务，特定义务层生成特定义务的表征，而后是分类、相似性打分、关联排序等必需的操作。
如图所示，较低层（即文本编码层）在一切义务中共享，而顶层是义务特定的，组合不同类型的 NLU 义务，如单句分类、成对文本分类、文本相似性和相关性排序。与 BERT 模型相似，MT-DNN 分两个阶段停止训练：预训练和微调。与 BERT 不同的是，MT-DNN 在微调阶段运用 MTL，在其模型架构中具有多个义务特定层。
在多义务精调阶段，我们运用基于 minibatch 的随机梯度下降（SGD）来学习模型参数（也就是，一切共享层和义务特定层的参数），如下图算法 1 所示。

金陵笑笑生 · 2019-6-10 18:26:40

有空一起交流一下

Ca07ki1 · 2019-6-11 21:07:31

元芳你怎么看？

广东梅州靓 · 2019-6-12 18:08:43

我也是坐沙发的

		自动登录	找回密码
密码			立即注册

GLUE基准新打破：微软多义务模型初次超越自然言语人类基准

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们