从词袋到 Transformer：自然言语处理实际的十年

流云不留影 · 2019-11-15 15:53:03

自2010年创立以来，著名的数据迷信竞赛平台Kaggle不断是机器学习趋向演化的绝佳观察平台。在这里曾经产生了几代的严重打破，吸引了成千上万的从业者以及数百万的论坛讨论。

根据上下文（这里是句子的最后一个词）的不同，“它”可以指“动物”或“街道”。来源Google提出的transformer.

在平台上发布的各种类型的应战（计算机视觉，语音，表格等）中，自然言语处理（NLP）如今遭到了越来越多的关注。的确，近几个月以来，该范畴正在见证数项令人兴奋的严重创新。最近的一个创新便是预训练言语模型transformer的问世。

近日，Zelros AI公司的团队研讨人员经过Kaggle平台视角，在Medium上撰文简要概述了NLP技术的发展简史。

2016年之前:词袋和TF-IDF的相对统治

在2016年之前，处理（并博得）Kaggle NLP应战的标准方法是运用词袋（基本上计算单词在文档中出现的次数）来创建特征，以供机器学习分类器运用，例如典型的Naive Bayes。TF-IDF略有改进。

例如，在StumbleUpon Evergreen 分类应战赛中便运用了这种方法（特地说一句，FrançoisChollet在2013年博得了比赛……他就是之后两年创建Keras的人）。

2016–2019年：词嵌入+ Keras和Tensorflow的兴起

2015年，出现了用于密集单词表示的库，例如Gensim（包括Word2vec和GloVe）。随后出现了其他预训练的嵌入，例如Facebook FastText或Paragram。

同时，易于运用的神经网络框架的第一个版本获得了普及：Keras和Tensorflow。有了它们，就可以末尾按单词序列捕获含义，而不再仅按单词袋捕获。

运转深度神经网络，要处理的最后一个大妨碍是：获得高速处理才能。这经过运用低成本GPU得以处理。Kaggle在2017年3月被Google收买后，经过Kaggle在其平台上收费（经过协作Notebooks内核）收费提供了它们。

从那时起，单词嵌入和神经网络（RNN，LSTM，GRU等…以及诸如留意力机制的改进）成为处理Kaggle上NLP义务的标准方法。

用递归神经网络编码单词序列 2018–2019年：PyTorch的打破

近几个月来，一种新的神经网络框架在数据迷信界越来越受关注：PyTorch。

我们不会参加Tensorflow VS PyTorch辩论，但是可以一定的是，一个活跃的PyTorch实际者社区正在Kaggle上长大。PyTorch笔记和教程定期在平台上发布。

Google中的Tensorflow（蓝色）与PyTorch（红色）搜索趋向（来源：Google Trend）
2019：transformer和预训练言语模型的诞生

如前几节所述，到目前为止，处理NLP义务的标准方法是运用单词嵌入（在大量未标记的数据上停止预训练），运用它们来初始化神经网络的第一层，并在其上训练其他层基于特定义务的数据（能够是文本分类，成绩解答，自然言语推断等）。

细心想想，成绩是这个方法不是最优的。理想上，无论何时你有一个新义务要处理，你都必须重新学习几乎一切从零末尾。运用单词嵌入初始化的模型总是需求从头末尾学习如何从单词序列中得出含义，——虽然这是言语了解的核心方面。 transformer来了，这是2018年出现的关键范式转变：从仅初始化模型的第一层到运用分层表示对整个模型停止预训练。

这将打开新的工作方法：把从预训练言语模型到下游义务的信息（又名迁移学习）。

《transformer—模型架构》（摘自《 Attention Is All You Need 》的论文）

在实际中，如今，应用预训练言语模型的最佳方法是运用Hugging Face（由如今寓居在美国的法国企业家和Station F Microsoft AI Factory的校友创建）的出色的transformer库。

如今它与PyTorch和TensorFlow兼容。假如您想在其上方运用wrapper来完成诸如文本分类之类的简单义务，则可以看看simple-transformers。

而且，假如您专注于非英语文本，那么另一个值得关注的库是fast.ai，该库旨在合并针对不同言语的预训练模型。它是由Kaggle的前总裁兼首席迷信家Jeremy Howard创建的。其实，每个人都可以使用具有上一代预训练言语模型的现成库。这样可以停止疾速实验，并可以最先进地运用NLP技术。

跟踪如何在将来的Kaggle NLP比赛中运用它们将很风趣。像最近的TensorFlow 2.0成绩解答应战一样，可以辨认有关Wikipedia页面内容的真适用户成绩的答案。

免责声明：以上内容来自网络，仅供交流学习之用。如有任何疑问或异议，请留言与我们联络。

来源：图灵联邦

d13784403613 · 2019-11-15 16:01:04

分享了

我叫没有昵称 · 2019-11-15 16:04:19

分享了

t411413 · 2019-11-15 16:05:49

分享了

白羊Sure147 · 2019-11-15 16:12:14

分享了

绛珠草 · 2019-11-16 11:30:34

顶顶更健康

VGOD喹 · 2019-11-17 11:15:41

学习下

叫什么不封号呢 · 2019-11-18 15:03:30

啥也不说了，大佬，给你个赞

		自动登录	找回密码
密码			立即注册

从词袋到 Transformer：自然言语处理实际的十年

本帖子中包含更多资源

大神点评7

最近发表

公社版块

关注我们