近期发展出来的方法(《Grammar as a Foreign Language》)将解析树转换为按深度优先遍历的序列,从而能运用序列到序列模型到该解析树上。以上解析树的线性化版本表示为:(S (N) (VP V N))。
Penn Treebank-选区解析
Penn Treebank 的「Wall Street Journal」部分用于评价选区解析器。第 22 部分用于开发,第 23 部分用于评价。模型基于 F1 评价。以下大多数模型整合了外部数据或特征。要对比仅在 WSJ 上训练的单个模型,参见《Constituency Parsing with a Self-Attentive Encoder》。
言语建模的常用评价数据集是 Penn Treebank,曾经过 Mikolov 等人的预处理(《Recurrent neural network based language model》)。该数据集由 929k 个训练单词、73k 个验证单词和 82k 个测试单词构成。作为预处理的一部分,单词运用小写格式,数字交换成 N,换行符用空格表示,并且一切其它标点都被删除。其词汇是最频繁运用的 10k 个单词,并且剩余的标记用一个标记替代。模型基于困惑度评价,即平均每个单词的对数概率(per-word log-probability),越低越好。
WikiText-2
WikiText-2(《Pointer Sentinel Mixture Models》)相比于 Penn Treebank,其在言语建模中是更接近实践的基准。WikiText-2 由大约两百万个从维基百科文章中提取的单词构成。
机器翻译
机器翻译是将句子从源言语转换为不同的目的言语的义务。带*的结果表示基于 21 个延续评价的平均验证集 BLEU 分数的平均测试分数,正如 Chen 等人的论文《The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation》所报告的。