门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
自然语言
›
从词袋到 Transformer:自然言语处理实际的十年 ...
返回列表
从词袋到 Transformer:自然言语处理实际的十年
[复制链接]
流云不留影
2019-11-15 15:53:03
显示全部楼层
|
阅读模式
自2010年创立以来,著名的数据迷信竞赛平台Kaggle不断是机器学习趋向演化的绝佳观察平台。在这里曾经产生了几代的严重打破,吸引了成千上万的从业者以及数百万的论坛讨论。
根据上下文(这里是句子的最后一个词)的不同,“它”可以指“动物”或“街道”。 来源Google提出的transformer.
在平台上发布的各种类型的应战(计算机视觉,语音,表格等)中,自然言语处理(NLP)如今遭到了越来越多的关注。的确,近几个月以来,该范畴正在见证数项令人兴奋的严重创新。最近的一个创新便是预训练言语模型transformer的问世。
近日,Zelros AI公司的团队研讨人员经过Kaggle平台视角,在Medium上撰文简要概述了NLP技术的发展简史。
2016年之前:词袋和TF-IDF的相对统治
在2016年之前,处理(并博得)Kaggle NLP应战的标准方法是运用词袋(基本上计算单词在文档中出现的次数)来创建特征,以供机器学习分类器运用,例如典型的Naive Bayes。TF-IDF略有改进。
例如,在StumbleUpon Evergreen 分类应战赛中便运用了这种方法(特地说一句,FrançoisChollet在2013年博得了比赛……他就是之后两年创建Keras的人)。
2016–2019年:词嵌入+ Keras和Tensorflow的兴起
2015年,出现了用于密集单词表示的库,例如Gensim(包括Word2vec和GloVe)。随后出现了其他预训练的嵌入,例如Facebook FastText或Paragram。
同时,易于运用的神经网络框架的第一个版本获得了普及:Keras和Tensorflow。有了它们,就可以末尾按单词序列捕获含义,而不再仅按单词袋捕获。
运转深度神经网络,要处理的最后一个大妨碍是:获得高速处理才能。这经过运用低成本GPU得以处理。Kaggle在2017年3月被Google收买后,经过Kaggle在其平台上收费(经过协作Notebooks内核)收费提供了它们。
从那时起,单词嵌入和神经网络(RNN,LSTM,GRU等…以及诸如留意力机制的改进)成为处理Kaggle上NLP义务的标准方法。
用递归神经网络编码单词序列
2018–2019年:PyTorch的打破
近几个月来,一种新的神经网络框架在数据迷信界越来越受关注:PyTorch。
我们不会参加Tensorflow VS PyTorch辩论,但是可以一定的是,一个活跃的PyTorch实际者社区正在Kaggle上长大。PyTorch笔记和教程定期在平台上发布。
Google中的Tensorflow(蓝色)与PyTorch(红色)搜索趋向(来源:Google Trend)
2019:transformer和预训练言语模型的诞生
如前几节所述,到目前为止,处理NLP义务的标准方法是运用单词嵌入(在大量未标记的数据上停止预训练),运用它们来初始化神经网络的第一层,并在其上训练其他层基于特定义务的数据(能够是文本分类,成绩解答,自然言语推断等)。
细心想想,成绩是这个方法不是最优的。理想上,无论何时你有一个新义务要处理,你都必须重新学习几乎一切从零末尾。运用单词嵌入初始化的模型总是需求从头末尾学习如何从单词序列中得出含义,——虽然这是言语了解的核心方面。 transformer来了,这是2018年出现的关键范式转变:
从仅初始化模型的第一层到运用分层表示对整个模型停止预训练。
这将打开新的工作方法:把从预训练言语模型到下游义务的信息(又名迁移学习)。
《transformer—模型架构》(摘自《 Attention Is All You Need 》的论文)
在实际中,
如今,应用预训练言语模型的最佳方法是运用Hugging Face(由如今寓居在美国的法国企业家和Station F Microsoft AI Factory的校友创建)的出色的transformer库。
如今它与PyTorch和TensorFlow兼容。假如您想在其上方运用wrapper来完成诸如文本分类之类的简单义务,则可以看看simple-transformers。
而且,假如您专注于非英语文本,那么另一个值得关注的库是fast.ai,该库旨在合并针对不同言语的预训练模型。它是由Kaggle的前总裁兼首席迷信家Jeremy Howard创建的。 其实,每个人都可以使用具有上一代预训练言语模型的现成库。这样可以停止疾速实验,并可以最先进地运用NLP技术。
跟踪如何在将来的Kaggle NLP比赛中运用它们将很风趣。像最近的TensorFlow 2.0成绩解答应战一样,可以辨认有关Wikipedia页面内容的真适用户成绩的答案。
免责声明:以上内容来自网络,仅供交流学习之用。如有任何疑问或异议,请留言与我们联络。
来源:图灵联邦
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
7
d13784403613
2019-11-15 16:01:04
显示全部楼层
分享了
回复
使用道具
举报
我叫没有昵称
2019-11-15 16:04:19
显示全部楼层
分享了
回复
使用道具
举报
t411413
2019-11-15 16:05:49
显示全部楼层
分享了
回复
使用道具
举报
白羊Sure147
2019-11-15 16:12:14
显示全部楼层
分享了
回复
使用道具
举报
绛珠草
2019-11-16 11:30:34
显示全部楼层
顶顶更健康
回复
使用道具
举报
VGOD喹
2019-11-17 11:15:41
显示全部楼层
学习下
回复
使用道具
举报
叫什么不封号呢
2019-11-18 15:03:30
显示全部楼层
啥也不说了,大佬,给你个赞
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
流云不留影
金牌会员
0
关注
0
粉丝
109
帖子
Ta的主页
发布
加好友
最近发表
国产化率首超50%,工业机器人进出口形势逆转
黄仁勋:人形机器人制造成本或比预期要低,花钱买车不如买机器人
那个震撼无数网友的人形机器人Atlas,退役了
外媒:马斯克透露,“擎天柱”机器人仍在试验阶段,最早明年年底
机器人!
终于知道为什么机器人无法取代人类了,看完网友分享,笑到肚子疼
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们