人工智能的发展史上，有哪些里程碑式的论文？

潘新 · 2024-4-16 11:57:54

文章立意方向

在开始这篇文章之前，首先介绍下笔者的站位和看问题的角度：笔者是一个有过大厂从业经历的一线人工智能算法工程师，从2011年至今，亲身参与、亲眼看到人工智能的蓬勃发展的历程。手中的工具从基于概率论、导数的机器学习再到今天的带有深度记忆、推理能力的大模型。
所以，基于笔者的从业经历（2011年~至今），那些史前的、创世性的论文（如辛顿-Hiton教授苦苦求索的CNN卷积神经网络），并不在笔者的介绍范围内。
本文笔者仅介绍那些【应用度高】、【引用量高】、【被互联网大厂直接上线使用】的极具现实意义和落地价值的paper。主要涵盖的领域是视觉算法（CV）和自然语言处理（NLP）。
牛X论文一览

1、《A Convolutional Neural Network for Modelling Sentences》 (2014)

官方描述：这篇论文提出了一个用于句子建模的卷积神经网络(CNN)架构，该模型使用一维卷积来学习句子嵌入的层次特征
老杨描述：为文本分类开启了新篇章（之前我们都是用RNN循环神经网络来做文本分类），这篇文章的出现，让本应该做图片分析的CNN，干起了NLP的活，不仅准确率略有提升，关键的问题是-->CNN做文本分类可以在CPU机器上来训练（当然RNN也可以跑在CPU机器上，只不过完成一轮模型训练，非常耗时！），对于当时部门极度缺少GPU的我们来讲，是一个福音-->既能完成业绩，而且干活效率高（不用深夜定闹钟来看训练进度了）。
直到目前为止，据老杨所知，百度搜索体系、信息流体系，仍然采用这篇论文的技术来快速筛选涉黄/暴/恐/恶心/政治等相关的文章、语句、评论等。
论文意义：传统的认知是，CNN就是做图片分析的，现在可以跨界做NLP的活，为以后新的特征提取器transformer（本来这个特征提取器的定位和RNN一样，是为了做NLP）在Sora上的应用开辟了新篇章！
2、《Attention is All You Need》 (2017) ---谷歌公司

官方描述：这篇论文提出了Transformer模型，它在处理序列数据时不依赖于循环网络结构，而是使用注意力机制，对NLP领域产生了革命性影响。
老杨描述：没错，这就是transformer，是谷歌公司2017年提出的，本意是替代RNN这个特征提取器，当然也确实在NLP任务上表现出来了一定的成绩。当时没有人认为这篇文章能够怎么样，也就慢慢的尘封了---->直到OpenAI的ChatGPT的出现（据说谷歌高层，为此事耿耿于怀）
论文意义：里程碑式的论文，一种全新的特征提取器，一开始只是取代了两架马车中的RNN，但是现在正在慢慢的也要取代CNN。不仅在ChatGPT上应用，而且在Sora上应用。包括国内目前所有的主流语言大模型---文心一言、清华智谱。不过清华智谱死不承认自己是用的transformer，非得叫自己glm，其实就是换汤不换药。
该文章，已经一统NLP领域的江山，马上也要一统CV了。
3、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》 (2018)---谷歌公司

图片加载中
官方描述：BERT模型通过双向Transformer预训练，显著提高了多种语言理解任务的性能。
老杨描述：在2018年，该论文已经发布，在NLP业界（各大互联网公司），引起了很大的震动，因为用过transformer特征提取器 + bert的神经网络结构，联合训练出来的语言模型。在全部，注意是全部NLP任务上，全部遥-遥-领-先！刷爆了之前所有NLP技术的最好效果--->准确率/召回率
具体任务包含：

文本分类（小黄文分类、财经体育娱乐等文章分类，都用）
机器翻译
序列标注、命名实体、分词等
情感分析（恶意、辱骂、开心、沮丧等）
意图识别（搜索引擎的核心技术，当你输入搜索内容，第一步要做的就是识别用户的意图）
文本摘要（司法、医院经常用到，比如判决书摘要、病例摘要等）
。。。。

论文意义：当所有的算法工程师都对中文NLP感到绝望的时候，这篇论文给全国的顶级NLP工程师带来了希望，并且一步步的工程化应用，至今都在百度、腾讯、美团、字节跳动公司的平台发光发热。
4、《Deep Residual Learning for Image Recognition》2015---华人之光（也可称为广州之光）何恺明，该论文获得顶会CVPR Best

图片加载中
官方描述：何恺明的残差网络（ResNet）是人工智能视觉算法领域的一个重大突破。ResNet通过引入残差学习框架来解决深度神经网络训练中的退化问题，使得训练深层网络成为可能。ResNet的影响力非常广泛，它不仅在图像分类任务中取得了显著的性能提升，也推动了其他计算机视觉任务的发展，如目标检测和人脸识别等。
老杨描述：如果说辛顿（Hiton）教授定义了神经网络，那么何恺明就定义了深度学习。在没有何恺明的Resnet之前，如何让神经网络层数变得更多、更深，是解决不了的问题。而浅层神经网络在记忆能力、推理能力的表现实在太差。强行提升网络层数，一直因为梯度消失、梯度爆炸的技术难题，无法变成现实。Resnet的出现，一举改变了现状。
**论文Title**：人类文明以来，人工智能方向被引用次数最多的文章，没有之一！
论文意义：有了Resnet，才有了深度学习。没有Resnet，就什么都没有。没有人脸识别、没有目标检测、没有ChatGPT、没有Sora。
5、《Generative Pre-trained Transformer 3 (GPT-3)》2020---OpenAI

官方描述：这是一个强大的语言生成模型，能够执行各种语言任务。
老杨描述：这就是ChatGPT（gpt3.5）的前身，这个是3.0
老杨恶意的揣测（有内行人交流），讯飞星火、360大模型、紫东太初、出门问问，都是基于这个基础模型来做的自己的大模型（或者是Facebook开源Llama开源大模型）。为啥呢？因为3.0是代码、模型全开源的。因为这些提到的公司，公布成本损耗，电费没有明显增长啊！
论文意义：让所有的行业内的技术从业人员，开始将目光投向生成式人工智能技术。但是大部分都是静静的看着，没有动作，普遍心态是--->你这个gpt3，也就是比bert强一丢丢，先看着再说。没想到，3.5的问世，翻天覆地。
6、《You Only Look Once: Unified, Real-Time Object Detection (YOLO)》2015

图片加载中
官方描述：它能够实时进行目标检测，对实时应用产生了重要影响
老杨描述：目标检测的最终胜利者，从2015年问世，直至今天，都是目标检测领域99%的工程师首选。这个技术有啥优点呢？--->识别的不仅精准，而且耗时更短。题外话：该文章的作者，由于不接受该技术被美国军方用于导弹精确视觉制导，黯然消失在大众视野。
论文意义：没有该技术，也就没有所谓的人体检测、人脸检测、旗帜检测等所有目标识别类的国内蓬勃应用。也就不会有所谓的商汤、旷视、依图等公司，海康威视要砍掉一半市值。
笔者的总结

有些论文已经完成了它的历史使命，有些论文仍在发光发热，有些论文将在未来的某天，决定着真正的类人智能体。
笔者以上列举的文章，不是权威的业界排名，只是一个从业10余年的资深用户的深刻体验。有的是极具落地价值的，比如1、3、5、6. 有的是人工智能领域里程碑意义的（堪比人类登月），比如2、4.
下一篇文章预告

《RNN/CNN/Transformer三个特征提取器的爱恨情仇》
声明：本文所有配图，均来自于GPT4作图。

		自动登录	找回密码
密码			立即注册

人工智能的发展史上，有哪些里程碑式的论文？

本帖子中包含更多资源

最近发表

公社版块

关注我们