《Deep Contextualized Word Representations》这篇论文来自华盛顿大学的工作,最后是发表在往年的NAACL会议上,并获得了最佳论文。其实这个工作的前身来自同一团队在ACL2017发表的《Semi-supervised sequence tagging with bidirectional language models》 [4],只是在这篇论文里,他们把模型愈加通用化了。首先我们来看看他们工作的动机,他们以为一个预训练的词表示应该可以包含丰富的句法和语义信息,并且可以对多义词停止建模。而传统的词向量(例如word2vec)是上下文有关的。例如下面"apple"的例子,这两个"apple"根据上下文意思是不同的,但是在word2vec中,只要apple一个词向量,无法对一词多义停止建模。
我们来看看第二篇论文《Improving Language Understanding by Generative Pre-Training》,这是OpenAI 团队前一段工夫放出来的预印版论文。他们的目的是学习一个通用的表示,可以在大量义务上停止运用。这篇论文的亮点次要在于,他们应用了Transformer网络代替了LSTM作为言语模型来更好的捕获长间隔言语结构。然后在停止详细义务有监督微调时运用了言语模型作为附属义务训练目的。最后再12个NLP义务上停止了实验,9个义务获得了SOTA。
[attach]130618[/attach]
3.2 方法
首先我们来看一下他们无监督预训练时的言语模型。他们照旧运用的是标准的言语模型目的函数,即经过前k个词预测当前词,但是在言语模型网络上他们运用了google团队在《Attention is all your need》论文中提出的Transformer解码器作为言语模型。Transformer模型次要是应用自留意力(self-attention)机制的模型,这里我就不多停止引见,大家可以看论文或者参考我之前的博客(https://www.cnblogs.com/robert-dlut/p/8638283.html)。
上周Google放出了他们的言语模型预训练方法,瞬时遭到了各界广泛关注,不少媒体公众号也停止了相应报道,那我们来看看这篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。这篇论文把预训练言语表示方法分为了基于特征的方法(代表ELMo)和基于微调的方法(代表OpenAI GPT)。而目前这两种方法在预训练时都是运用单向的言语模型来学习言语表示。