Transformer 是谷歌在 17 年做机器翻译任务的Attention is all you need的论文中提出的,引起了相当大的反响。每一位从事 NLP 研发的同仁都应该透彻搞明白 Transformer,它的重要性毫无疑问,尤其是你在看完我这篇文章之后,我相信你的紧迫感会更迫切,我就是这么一位善于制造焦虑的能手。不过这里没打算重点介绍它,想要入门 Transformer 的可以参考以下三篇文章:一个是 Jay Alammar 可视化地介绍 Transformer 的博客文章 The Illustrated Transformer,非常容易理解整个机制,建议先从这篇看起:
中文翻译版本https://zhuanlan.zhihu.com/p/54356280
第二篇是 Calvo 的博客:
Dissecting BERT Part 1: The Encoderhttps://medium.com/dissecting-bert/dissecting-bert-part-1-d3c3d495cdb3
论文笔记BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(BERT模型理解)https://ai.yanxishe.com/page/blogDetail/9925
作者:张俊林老师,他是中国中文信息学会理事,中科院软件所博士,目前在新浪微博 AI Lab 担任资深算法专家。在此之前,张俊林老师曾在阿里巴巴任资深技术专家并负责新技术团队,也曾在百度和用友担任技术经理及技术总监等职务。同时他是技术书籍《这就是搜索引擎:核心技术详解》(该书荣获全国第十二届优秀图书奖)、《大数据日知录:架构与算法》的作者。本文首发于知乎:https://zhuanlan.zhihu.com/p/54743941