NAACL19笔记：自然言语处理运用的适用了解（多图解&链接）

d13784403613 · 2019-12-1 19:55:45

作者：Nikita Zhiltsov

翻译：王威力

校正：申利彬

本文长度约为3000字，建议阅读10分钟

本文引见了NLP在文本相似性、文本分类、序列标注和言语生成中的重要成果。

继续这个系列文章的第一部分（https://medium.com/orb-engineering/naacl-19-notes-practical-insights-for-natural-language-processing-applications-part-i-5f981c92af80），我们调查了NLP义务中最近的一些重要成果，比如文本相似性、文本分类、序列标注、言语生成。

文本相似性

2019NAACL中的文章“Correlation Coefficients and Semantic Textual Similarity”（ https://www.aclweb.org/anthology/N19-1100）对运用余弦相似性计算词向量的相似性提出了质疑。它的核心想法是，思索把一个单词或者句子嵌入到N维向量空间。接着可以运用经典的统计学相关性计算方法。按照阅历分析，对于通常的词向量的方法（GloVe、FastText、word2vec），余弦相似性相当于Pearson（线性）相关系数。由于实践中的值通常在0均值左右分布。

在词相似度下，违犯正态性假设使得余弦相似度特别不合适于GloVe词向量。对FastText和word2vec，皮尔逊系数和秩相关系数（Spearman，Kendall）的结果具有可比性。但是，余弦相似性对于句子向量（句子中单词词向量的质心,一种计算句子特征的基本方法）是次优的，即便对于FastText也是如此。它是由表现为异常值的停词惹起的。在这种状况下，秩相关测度在阅历上更可取。

文本分类

文档分类（Document classification）

“Rethinking Complex Neural Network Architectures for Document Classification”（ https://www.aclweb.org/anthology/N19-1408）和它的后续文章（https://arxiv.org/pdf/1904.08398v1.pdf）在四个数据集（Reuters, Arxiv APD, IMDB, Yelp）上对比了最先进的文本分类模型。作者的框架Hedwig（http://hedwig.ca/）运用了PyTorch完成这些模型。正如预期的那样，微调（Fine-tuned）BERT分类器的效果最好，但其他的发现令人惊奇。第二好的模型是一个简单的bi-LSTM分类器（https://github.com/castorini/hedwig/tree/master/models/reg_lstm），经过适当正则化，用max-pooling来降维得到一个文档特征向量。它的表现超过了一些复杂结构的模型，比如hierarchical attention networks (HAN)（https://github.com/castorini/hedwig/tree/master/models/han）或者XML-CNN（https://github.com/castorini/hedwig/tree/master/models/xml_cnn），因此质疑这项义务能否需求这么复杂。甚至，对于类别更多且相对稀疏的数据集(Reuters, Arxiv)，在TF-IDF向量上训练的one-vs-rest逻辑回归和SVM的表现都超过了这两个复杂的模型.

“Mitigating Uncertainty in Document Classification”(https://www.aclweb.org/anthology/N19-1316)提出基于特征表示的度量学习和基于drop-out的文本分类深度学习模型不确定性度量方法（能够运用于高精度用例，如医学范畴）。分类器的结构很标准：一个在训练好了的词向量数据集上（初始化为GloVe向量）的卷积神经网络，接着一个dropout层，一个全衔接层和一个softmax层。Metric learning是用于训练词向量使得类内的欧式间隔最小、类间欧式间隔最大。Sₖ是第k类的一组样本点，rᵢ, rⱼ是第i、j个样本点的特征，D是欧式间隔。

引入度量学习可以减小预测方差，提高准确预测的可信度。

基于dropout的方法结合降噪操作，应用多个dropout评价的信息熵来度量模型的不确定性。预测分类的输入向量y* = (y*₁,…,y*ₖ)是在卷积神经网络k times后运用dropout（以一定概率放弃被激活的神经元）。

为了降噪，把1/3的无法充分代表的类别去掉之后，类别分布的熵计算为不确定性分数。我们留意到variational dropout method方法照旧惹起了激烈的实际讨论（可以看https://www.reddit.com/r/MachineLearning/comments/7bm4b2/d_what_is_the_current_state_of_dropout_as/）虽然如此，论文作者曾经表明，该方法经过在20类文本分类义务中将25%的标记工作分配给人类专家，将macro-F1分数从78%提高到92%。

多标签分类

“Ranking-Based Autoencoder for Extreme Multi-label Classification”（ https://www.aclweb.org/anthology/N19-1289）这篇文章提出了一种针对大量标签的文本分类义务的方法。这项义务在理想世界中有很多的运用，比如说，Orb Intelligence我们在做NAICS工业分类（北美产业分类系统）（是基于企业描画的文本做分类，有超过2200个分类层次）。该义务还具有标签之间的语义关系（类不是排他的）、类别不平衡和标签不完全性。

文章作者开发了一个新的深度学习方法Rank-AE如图1：

图 1 Rank-AE

ℒ ₕ(xₕ,yₕ)是平方差误差。这个架构可以在训练过程中捕捉到标签间的相关性。在推理过程中，标签的编码ℇ被忽略了。重建的损失ℒₐₑ(y,y’)由两个部分组成，分别对应正标签负标签。

自留意力机制有两部分（见图2）

图 2

首先，运用TF-IDF给词向量赋权重，第二，channel attention被设计成在单词嵌入中衡量不同的位（比方说，假设其中一些强调去掉术语“苹果”的商业意义，而另一个强调农业意义）。Channel attetion是经过excitation network完成（两个全衔接层、非线性激活），以前这种方法只用在图像范畴。

在原始的词向量矩阵上运用这两个自留意力机制，再用average pooling来得到特征向量x’。模型简化测试显示，Rank-AE在有噪声的数据集上以及复杂多分类文本数据集上受益于margin-ranking loss。论文中提供的留意力权重的预先分析对于解释哪些文本集对预测标签有贡献具有指点意义。

零样本分类

“Integrating Semantic Knowledge to Tackle Zero-Shot Text Classification”（ https://www.aclweb.org/anthology/N19-1108）对零样本文本分类成绩提出了一种先进的方法，零样本分类成绩是指预测集中的分类在训练集中没有出现。在这种状况下，虽然我们假设我们至少有它们的名字，能够是简短的描画、类间分类甚至语义关系。这个方法有两个阶段（如图3）。

图 3

第一阶段，粗粒度分类：预测输入文天分否来自于可见或不可见的类别。此时，多分类成绩被分解为多个one-vs-rest分类成绩。作者运用了数据加强技术，来协助分类器在没有访问标记数据的时分，对于不可见的类别更留意。然后第二阶段，细粒度分类，最终确定输入文档的类别。它能够运用：

已知特征向量xᵢ，类别向量c，零样本分类器以(xᵢ, c)为输入，学习预测p(ŷᵢ = c|xᵢ)的置信区间。基于语义知识的特征增广用于提供与文档和不可见类相关的附加信息，从而推行零样本推理。有关运用的数据加强和功能加强的更多详细信息：

1. 主题翻译：从第一个可见类末尾逐词 (表示为类名c的词向量) 翻译至新的不可见类c’，运用词的类比方法（https://aclweb.org/anthology/W14-1618）：

翻译词w保留词性（名词->名词，动词->动词等）。翻译后的文档用于训练不可见类的零样本分类器。这些文档也用作可见类的二分类器（能否是可见类的分类器）的负样本。

2. 特征加强：每个单词的嵌入用2个向量加强：

DBpedia ontology数据集和20组旧事数据集上的实验显示，经过主题翻译的数据加强技术，对于不可见类的准确性提升了。另外，特征加强使知识从可见的类转移到不可见的类，从而完成零样本学习。该方法在各个阶段和总体上都达到了与竞争基线相比的最高精度。

序列标注

Zalando Research的“Pooled Contextualized Embeddings for Named Entity Recognition”（ http://www.aclweb.org/anthology/N19-1078）在大型语料库上下文一切句子中，应用字符级LSTM的上下文嵌入池化（最小/最大/平均），如图4。

图 4 对给定单词‘Indra’的上下文字符串嵌入特征（嵌入单词，1. 调用embed（）方法，把结果放到这个单词的memory里；2. 然后把memory中一切上下文中这个单词的词向量做pooling操作；3. 最后，我们把原始的单词的词向量和上下文中pooled后的这个单词的词向量拼接起来）

这个全局的特征表示具有两个吸引人的特性：

预训练：

下游义务训练：

最终的词嵌入是把原始上下文中的单词嵌入和pooled单词特征拼接起来，也是经过标准GloVe 或FastText来完成的词向量嵌入。实验证明，pooled上下文的嵌入提升了BiLSTM-CRF多言语命名实体辨认，完成了新的SOTA表现，甚至超过了BERT-NER（https://github.com/kyzhouhzau/BERT-NER），模型的完成是基于Flair框架（https://github.com/zalandoresearch/flair）。

言语生成

“Pre-trained language model representations for language generation”（ https://arxiv.org/pdf/1903.09722.pdf）这篇文章中，Facebook AI Research讨论了在seq2seq（编码器-解码器）结构中结合预训练向量的不同策略及其在机器翻译和笼统摘要中的运用。编码器和解码器都是Fairseq framework（https://github.com/pytorch/fairseq）中的tranformer完成的。思索的策略包括：

实验表明，在这两种设置下，添加预先训练的特征对编码器网络非常有效（代价是训练速度慢5倍，而推理速度慢12-14%）。风趣的是，当有更多的标记数据可用时，效果改进会减少，这与第一部分讨论的预训练的样本效率是分歧的。

第二部分到此结束。在第三部分中，我们将概述框架和各种有效的技术（留意力机制和自留意力机制、模型可视化和解释、对抗学习、知识提取、多模态学习）。

原文标题：NAACL ’19 Notes: Practical Insights for Natural Language Processing Applications — Part II

原文链接：https://medium.com/orb-engineering/naacl-19-notes-practical-insights-for-natural-language-processing-applications-part-ii-2a2a3dd42d1

编辑：黄继彦

校正：龚力

译者简介

王威力，养老医疗行业BI从业者。保持学习。

— 完 —

关注清华-青岛数据迷信研讨院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。

千夜ゞ风少 · 2019-12-1 20:07:11

分享了

蛀心虫1号 · 2019-12-1 20:07:52

分享了

dreamboy001 · 2019-12-1 20:13:23

分享了

影子之歌 · 2019-12-2 15:39:30

看起来好像不错的样子

从阳台泼下的水 · 2019-12-3 20:26:01

来啊，互相伤害啊

一土一如来 · 2019-12-4 13:50:12

锄禾日当午，发帖真辛苦。谁知坛中餐，帖帖皆辛苦！

		自动登录	找回密码
密码			立即注册

NAACL19笔记：自然言语处理运用的适用了解（多图解&链接）

本帖子中包含更多资源

大神点评6

最近发表

公社版块

关注我们