1、《A Convolutional Neural Network for Modelling Sentences》 (2014)
官方描述:这篇论文提出了一个用于句子建模的卷积神经网络(CNN)架构,该模型使用一维卷积来学习句子嵌入的层次特征 老杨描述:为文本分类开启了新篇章(之前我们都是用RNN循环神经网络来做文本分类),这篇文章的出现,让本应该做图片分析的CNN,干起了NLP的活,不仅准确率略有提升,关键的问题是-->CNN做文本分类可以在CPU机器上来训练(当然RNN也可以跑在CPU机器上,只不过完成一轮模型训练,非常耗时!),对于当时部门极度缺少GPU的我们来讲,是一个福音-->既能完成业绩,而且干活效率高(不用深夜定闹钟来看训练进度了)。
直到目前为止,据老杨所知,百度搜索体系、信息流体系,仍然采用这篇论文的技术来快速筛选涉黄/暴/恐/恶心/政治等相关的文章、语句、评论等。 论文意义:传统的认知是,CNN就是做图片分析的,现在可以跨界做NLP的活,为以后新的特征提取器transformer(本来这个特征提取器的定位和RNN一样,是为了做NLP)在Sora上的应用开辟了新篇章!
2、《Attention is All You Need》 (2017) ---谷歌公司
官方描述:这篇论文提出了Transformer模型,它在处理序列数据时不依赖于循环网络结构,而是使用注意力机制,对NLP领域产生了革命性影响。 老杨描述:没错,这就是transformer,是谷歌公司2017年提出的,本意是替代RNN这个特征提取器,当然也确实在NLP任务上表现出来了一定的成绩。当时没有人认为这篇文章能够怎么样,也就慢慢的尘封了---->直到OpenAI的ChatGPT的出现(据说谷歌高层,为此事耿耿于怀) 论文意义:里程碑式的论文,一种全新的特征提取器,一开始只是取代了两架马车中的RNN,但是现在正在慢慢的也要取代CNN。不仅在ChatGPT上应用,而且在Sora上应用。包括国内目前所有的主流语言大模型---文心一言、清华智谱。不过清华智谱死不承认自己是用的transformer,非得叫自己glm,其实就是换汤不换药。
该文章,已经一统NLP领域的江山,马上也要一统CV了。
3、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》 (2018)---谷歌公司
论文意义:当所有的算法工程师都对中文NLP感到绝望的时候,这篇论文给全国的顶级NLP工程师带来了希望,并且一步步的工程化应用,至今都在百度、腾讯、美团、字节跳动公司的平台发光发热。
4、《Deep Residual Learning for Image Recognition》2015---华人之光(也可称为广州之光)何恺明,该论文获得顶会CVPR Best