10篇论文带你入门深度学习图像分类（附下载）

人走茶不凉 · 2020-8-22 06:05:57

来源：计算机视觉联盟

本文约7600字，建议阅读10+分钟。

本文将引见10篇最佳论文供初学者阅读。

前言

计算机视觉是将图像和视频转换成机器可了解的信号的主题。应用这些信号，程序员可以基于这种高级了解来进一步控制机器的行为。在许多计算机视觉义务中，图像分类是最基本的义务之一。它不只可以用于许多实践产品中，例如Google Photo的标签和AI内容审核，而且还为许多更高级的视觉义务（例如物体检测和视频了解）打开了一扇门。

自从深度学习的打破以来，由于该范畴的疾速变化，初学者常常发现它太笨拙，无法学习。与典型的软件工程学科不同，没有很多关于运用DCNN停止图像分类的书籍，而了解该范畴的最佳方法是阅读学术论文。但是要读什么论文？我从哪说起呢？在本文中，我将引见10篇最佳论文供初学者阅读。经过这些论文，我们可以看到该范畴是如何发展的，以及研讨人员如何根据以前的研讨成果提出新的想法。但是，即便您曾经在此范畴工作了一段工夫，对您停止大范围整理照旧很有协助。
1998年：LeNet

梯度学习在于文档辨认中的运用

摘自“基于梯度的学习运用于文档辨认”

LeNet于1998年推出，为运用卷积神经网络停止将来图像分类研讨奠定了基础。许多经典的CNN技术（例如池化层，完全衔接的层，填充和激活层）用于提取特征并停止分类。借助均方误差损失功能和20个训练周期，该网络在MNIST测试集上可以达到99.05％的精度。即便经过20年，照旧有许多最先进的分类网络总体上遵照这种形式。
2012年：AlexNet

深度卷积神经网络的ImageNet分类

摘自“具有深度卷积神经网络的ImageNet分类”

虽然LeNet获得了不错的成绩并显示了CNN的潜力，但由于计算才能和数据量有限，该范畴的发展停滞了十年。看起来CNN只能处理一些简单的义务，例如数字辨认，但是对于更复杂的特征（如人脸和物体），带有SVM分类器的HarrCascade或SIFT特征提取器是更可取的方法。

但是，在2012年ImageNet大规模视觉辨认应战赛中，Alex Krizhevsky提出了基于CNN的处理方案来应对这一应战，并将ImageNet测试安装的top-5准确性从73.8％大幅提高到84.7％。他们的方法承继了LeNet的多层CNN想法，但是大大添加了CNN的大小。从上图可以看到，与LeNet的32x32相比，如今的输入为224x224，与LeNet的6相比，许多卷积内核具有192个通道。

虽然设计变化不大，但参数变化了数百次，但网络的捕获和表示复杂特征的才能也提高了数百倍。为了停止大型模型训练，Alex运用了两个具有3GB RAM的GTX 580 GPU，这创始了GPU训练的先河。异样，运用ReLU非线性也有助于降低计算成本。

除了为网络带来更多参数外，它还经过运用 Dropout层讨论了大型网络带来的过拟合成绩。其部分呼应归一化方法此后并没有获得太大的普及，但是启示了其他重要的归一化技术（例如BatchNorm）来处理梯度饱和成绩。综上所述，AlexNet定义了将来十年的实践分类网络框架：卷积，ReLu非线性激活，MaxPooling和Dense层的组合。
2014年：VGG

超深度卷积网络用于大规模图像辨认

来自Quora“ https://www.quora.com/What-is-the-VGG-neural-network”

在运用CNN停止视觉辨认方面获得了宏大成功，整个研讨界都大吃一惊，一切人都末尾研讨为什么这种神经网络可以如此出色地工作。例如，在2013年发表的“可视化和了解卷积网络”中，Matthew Zeiler讨论了CNN如何获取特征并可视化中间表示。忽然之间，每个人都末尾看法到CNN自2014年以来就是计算机视觉的将来。在一切直接关注者中，Visual Geometry Group的VGG网络是最吸引眼球的网络。在ImageNet测试仪上，它的top-5准确度达到93.2％，top-1准确度达到了76.3％。

遵照AlexNet的设计，VGG网络有两个次要更新：

由于这种优雅的设计，VGG也成为了其他计算机视觉义务中许多开拓性网络的骨干网络，例如用于语义分割的FCN和用于对象检测的Faster R-CNN。

随着网络的深化，从多层反向传播中梯度消逝成为一个更大的成绩。为了处理这个成绩，VGG还讨论了预训练和权重初始化的重要性。这个成绩限制了研讨人员继续添加更多的层，否则，网络将很难交融。但是两年后，我们将为此找到更好的处理方案。
2014年：GoogLeNet

更深卷积

摘自“ Going Deeper with Convolutions”

VGG具有美丽的外观和易于了解的结构，但在ImageNet 2014竞赛的一切决赛入围者中表现都不佳。GoogLeNet（又名InceptionV1）获得了最终奖。就像VGG一样，GoogLeNet的次要贡献之一就是采用22层结构来打破网络深度的限制。这再次证明，进一步深化的确是提高准确性的正确方向。

与VGG不同，GoogLeNet试图直接处理计算和梯度递减成绩，而不是提出具有更好的预训练形式和权重初始化的处理方法。

Bottleneck Inception Module From “ Going Deeper with Convolutions”

首先，它运用称为Inception的模块探求了非对称网络设计的思想（请参见上图）。理想状况下，他们希望采用稀疏卷积或密集层来提高特征效率，但是古代硬件设计并非针对这种状况。因此，他们以为，网络拓扑级别的稀疏性还可以在应用现有硬件功能的同时，协助交融功能。

其次，它经过自创论文“网络中的网络”来处理高计算成本的成绩。基本上，引入1x1卷积滤波器以在停止繁重的计算操作（如5x5卷积内核）之前减小特征的尺寸。当前将该结构称为“Bottleneck ”，并在许多后续网络中广泛运用。相似于“网络中的网络”，它还运用平均池层代替最终的完全衔接层，以进一步降低成本。

第三，为了协助梯度流向更深的层次，GoogLeNet还对某些中间层输入或辅助输入运用了监督。由于其复杂性，该设计后来在图像分类网络中并不非常盛行，但是在计算机视觉的其他范畴（如Hourglass网络）的姿态估计中越来越盛行。

作为后续举动，这个Google团队为此Inception系列写了更多论文。“批处理规范化：经过减少外部协变量偏移来加速深度网络训练”代表 InceptionV2 。

2015年的“重新思索计算机视觉的Inception架构”代表 InceptionV3 。2015年的“ Inception-v4，Inception-ResNet和残余衔接对学习的影响”代表 InceptionV4。每篇论文都对原始的Inception网络停止了更多改进，并获得了更好的效果。
2015年：Batch Normalization

批处理规范化：经过减少外部协变量偏移来加速深度网络训练

初始网络协助研讨人员在ImageNet数据集上达到了超人的准确性。但是，作为一种统计学习方法，CNN非常受特定训练数据集的统计性质的限制。因此，为了获得更高的准确性，我们通常需求预先计算整个数据集的平均值和标准偏向，并运用它们首先对我们的输入停止归一化，以确保网络中的大多数层输入都严密，从而转化为更好的激活呼应才能。

这种近似方法非常费事，有时对于新的网络结构或新的数据集根本不起作用，因此深度学习模型照旧被以为很难训练。为了处理这个成绩，创建GoogLeNet的人Sergey Ioffe和Chritian Szegedy决议发明一种更聪明的东西，称为“批量标准化 ”。

摘自“ 批量标准化：经过减少外部协变量偏移来加速深度网络训练”

批量规范化的想法并不难：只需训练足够长的工夫，我们就可以运用一系列小批量的统计数据来近似整个数据集的统计数据。而且，代替手动计算统计信息，我们可以引入两个更多可学习的参数“缩放”和“移位”，以使网络学习如何单独对每一层停止规范化。

上图显示了计算批次归一化值的过程。如我们所见，我们取整个小批量的平均值，并计算方差。接上去，我们可以运用此最小批量均值和方差对输入停止归一化。最后，经过比例尺和位移参数，网络将学会调整批标准化结果以最合适下一层，通常是ReLU。一个正告是我们在推理时期没有小批量信息，因此一种处理方法是在训练时期计算移动平均值和方差，然后在推理途径中运用这些移动平均值。这项小小的创新是如此具有影响力，一切后来的网络都立刻末尾运用它。
2015年：ResNet

深度残差学惯用于图像辨认

2015年能够是十年来计算机视觉最好的一年，我们曾经看到很多伟大的想法不只出如今图像分类中，而且还出现了各种各样的计算机视觉义务，例如对象检测，语义分割等。2015年属于一个名为ResNet或残差网络的新网络，该网络由Microsoft Research Asia的一组中国研讨人员提出。

摘自“用于图像辨认的深度残差学习”

正如我们之前在VGG网络中所讨论的，要变得更深，最大的妨碍是梯度消逝成绩，即，当经过更深的层向后传播时，导数会越来越小，最终达到古代计算机体系结构无法真正代表的有意义的地步。GoogLeNet尝试经过运用辅助监管和非对称启动模块来对此停止攻击，但只能在较小程度上缓解该成绩。假如我们要运用50甚至100层，能否会有更好的方法让渐变流过网络？ResNet的答案是运用残差模块。

剩余的模块从“深残余学习图像辨认”

ResNet在输入中添加了身份标识快捷方式，因此每个残差模块至少都不能预测输入是什么，而不会迷失方向。更为重要的是，残差模块不是希望每个图层都直接合适所需的特征映射，而是尝试了解输入和输入之间的差异，这使义务变得愈加容易，由于所需的信息增益较小。

想象一下，您正在学习数学，对于每个新成绩，都将得到一个相似成绩的处理方案，因此您所要做的就是扩展此处理方案并使其起作用。这比为您遇到的每个成绩想出一个全新的处理方案要容易得多。或者像牛顿所说，我们可以站在巨人的肩膀上，身份输入就是剩余模块的那个巨人。

除了身份映射，ResNet还从Inception网络借用了瓶颈和批处理规范化。最终，它成功构建了具有152个卷积层的网络，并在ImageNet上完成了80.72％的top-1准确性。剩余方法也成为后来的许多其他网络（例如Xception，Darknet等）的默许选项。此外，由于其简单美观的设计，如今它仍广泛用于许多消费视觉辨认系统中。

经过追踪残差网络的炒作，还有更多不变式出现。在“深层残差网络中的身份映射”中，ResNet的原始作者试图将激活放在残差模块之前，并获得了更好的结果，此设计此后称为ResNetV2。异样，在2016年的论文《深度神经网络的聚合残差变换》中，研讨人员提出了ResNeXt，该模型为残差模块添加了并行分支，以汇总不同变换的输入。
2016年：Xception

深度学习与深度可分卷积

摘自“Xception：深度学习与深度可分卷积”

随着ResNet的发布，图像分类器中大多数低挂的水果看起来曾经被抢走了。研讨人员末尾思索CNN魔术的外部机制是什么。由于跨通道卷积通常会引入大量参数，因此Xception网络选择调查此操作以了解其效果的全貌。

就像它的名字一样，Xception源自Inception网络。在Inception模块中，将不同转换的多个分支聚合在一同以完成拓扑稀疏性。但是为什么这种稀疏起作用了？Xception的作者，也是Keras框架的作者，将此想法扩展到了一种极端状况，在这种状况下，一个3x3卷积文件对应于最后一个串联之前的一个输入通道。在这种状况下，这些并行卷积内核实践上构成了一个称为深度卷积的新操作。

摘自“深度卷积和深度可分离卷积”

如上图所示，与传统卷积不同，传统卷积包括一切通道以停止一次计算，深度卷积仅分别计算每个通道的卷积，然后将输入串联在一同。这减少了通道之间的特征交换，但也减少了很多衔接，因此导致具有较少参数的层。但是，此操作将输入与输入相反数量的通道（假如将两个或多个通道组合在一同，则输入的通道数量将减少）。因此，一旦合并了通道输入，就需求另一个常规1x1滤波器或逐点卷积，以添加或减少通道数，就像常规卷积一样。

这个想法最后不是来自Xception。在名为“大规模学习视觉表示”的论文中对此停止了描画，并且在InceptionV2中偶然运用。Xception进一步迈出了一步，并用这种新型卷积代替了几乎一切的卷积。

实验结果非常好。它超越了ResNet和InceptionV3，成为用于图像分类的新SOTA方法。这也证明了CNN中跨通道相关性和空间相关性的映射可以完全解耦。此外，由于与ResNet具有相反的优点，Xception也具有简单美观的设计，因此其思想还用于随后的许多其他研讨中，例如MobileNet，DeepLabV3等。
2017年：MobileNet

用于移动视觉运用的高效卷积神经网络

Xception在ImageNet上完成了79％的top-1准确性和94.5％的top-5准确性，但是与以前的SOTA InceptionV3相比分别仅提高了0.8％和0.4％。新图像分类网络的边际收益越来越小，因此研讨人员末尾将留意力转移到其他范畴。在资源受限的环境中，MobileNet推进了图像分类的严重发展。

“MobileNets：针对移动视觉运用的高效卷积神经网络”中的MobileNet模块

与Xception相似，MobileNet运用与下面所示相反的深度可分离卷积模块，并着重于高效和较少参数。

“MobileNets：用于移动视觉运用的高效卷积神经网络”中的参数比率

上式中的分子是深度可分离卷积所需的参数总数。分母是相似的规则卷积的参数总数。这里D[K]是卷积核的大小，D[F]是特征图的大小，M是输入通道数，N是输入通道数。由于我们将通道和空间特征的计算分开了，因此我们可以将乘法转换为相加，其量级较小。从该比率可以看出，更好的是，输入通道数越多，运用该新卷积节省的计算量就越多。

MobileNet的另一个贡献是宽度和分辨率乘数。MobileNet团队希望找到一种规范的方法来减少移动设备的模型大小，而最直观的方法是减少输入和输入通道的数量以及输入图像的分辨率。为了控制此行为，比率alpha乘以通道，比率rho乘以输入分辨率（这也会影响要素图的大小）。因此，参数总数可以用以下公式表示：

“MobileNets：用于移动视觉运用的高效卷积神经网络”

虽然这种变化在创新方面看似天真，但它具有宏大的工程价值，由于这是研讨人员初次得出结论，可以针对不同的资源约束调整网络的规范方法。此外，它还总结了改进神经网络的最终处理方案：更大和更高的分辨率输入会导致更高的精度，更薄和更低的分辨率输入会导致更差的精度。

在2018年和2019年晚些时分，MobiletNet团队还发布了“MobileNetV2：残差和线性瓶颈”和“搜索MobileNetV3”。在MobileNetV2中，运用了倒置的残留瓶颈结构。在MobileNetV3中，它末尾运用神经体系结构搜索技术来搜索最佳体系结构组合，我们将在后面引见。
2017年：NASNet

学习可扩展的体系结构以完成可扩展的图像辨认

就像针对资源受限环境的图像分类一样，神经体系结构搜索是在2017年左右出现的另一个范畴。借助ResNet，Inception和Xception，似乎我们曾经达到了人类可以了解和设计的最佳网络拓扑，但是假如有的话，一个更好，更复杂的组合，远远超出了人类的想象力？2016年的一篇论文《带有强化学习的神经体系结构搜索》提出了一种经过强化学习在预定搜索空间内搜索最佳组合的想法。众所周知，强化学习是一种以目的明白，奖励搜索代理商的最佳处理方案的方法。但是，受计算才能的限制，本文仅讨论了在小型CIFAR数据集中的运用。

NASNet搜索空间。“学习可扩展的体系结构以完成可扩展的图像辨认”

为了找到像ImageNet这样的大型数据集的最佳结构，NASNet创建了针对ImageNet量身定制的搜索空间。它希望设计一个特殊的搜索空间，以便CIFAR上的搜索结果也可以在ImageNet上正常工作。首先，NASNet假设在良好的网络（如ResNet和Xception）中常用的手工模块在搜索时照旧有用。因此，NASNet不再搜索随机衔接和操作，而是搜索这些模块的组合，这些模块已被证明在ImageNet上曾经有用。其次，实践搜索仍在32x32分辨率的CIFAR数据集上执行，因此NASNet仅搜索不受输入大小影响的模块。为了使第二点起作用，NASNet预定义了两种类型的模块模板：Reduction和Normal。

摘自“学习可扩展的体系结构以完成可伸缩的图像辨认”

虽然NASNet具有比手动设计网络更好的度量标准，但是它也有一些缺陷。寻觅最佳结构的成本非常高，只要像Google和Facebook这样的大公司才能负担得起。而且，最终结构对人类来说并没有太大意义，因此在消费环境中难以维护和改进。

在2018年晚些时分，“MnasNet：针对移动平台的神经结构搜索”经过运用预定义的链块结构限制搜索步骤，进一步扩展了NASNet的想法。此外，经过定义权重因子，mNASNet提供了一种更系统的方法来搜索给定特定资源限制的模型，而不只仅是基于FLOP停止评价。
2019年：EfficientNet

卷积神经网络模型缩放的反思

在2019年，对于CNN停止监督图像分相似乎不再有令人兴奋的想法。网络结构的急剧变化通常只会带来少许的精度提高。更糟的是，当同一网络运用于不同的数据集和义务时，以前宣称的技巧似乎不起作用，这引发了人们的批判，即这些改进能否仅合适ImageNet数据集。

另一方面，有一个技巧绝不会孤负我们的希冀：运用更高分辨率的输入，为卷积层添加更多通道以及添加更多层。虽然力气非常残酷，但似乎存在一种按需扩展网络的准绳方法。MobileNetV1在2017年提出了这种建议，但后来重点转移到了更好的网络设计上。

摘自“EfficientNet：卷积神经网络的模型缩放思索”

继NASNet和mNASNet之后，研讨人员看法到，即便在计算机的协助下，架构的改变也不会带来太多好处。因此，他们末尾回落到扩展网络规模。EfficientNet只是建立在此假设之上的。一方面，它运用了mNASNet的最佳构建基块，以确保有良好的基础。另一方面，它定义了三个参数alpha，beta和rho来分别控制网络的深度，宽度和分辨率。这样，即便没有大型GPU池来搜索最佳结构，工程师仍可以依托这些准绳性参数根据他们的不同要求来调整网络。最后，EfficientNet提供了8种不同的变体，它们具有不同的宽度，深度和分辨率，并且无论大小模型都具有良好的功能。换句话说，假如要获得较高的精度，请运用600x600和66M参数的EfficientNet-B7。假如您想要低延迟和更小的模型，请运用224x224和5.3M参数EfficientNet-B0。成绩处理了。
其他

假如您完成了10篇以上的论文的阅读，您应该对CNN的图像分类历史有了很好的了解。假如您想继续学习这一范畴，我还列出了一些其他风趣的论文供您阅读，这些论文在各自范畴都很有名，并启示了世界上许多其他研讨人员。
2014年：SPPNet

深度卷积网络中的空间金字塔池用于视觉辨认

SPPNet从传统的计算机视觉特征提取中自创了特征金字塔的思想。该金字塔构成了一个具有不同比例的要素词袋，因此它可以顺应不同的输入大小并摆脱固定大小的全衔接层。这个想法还进一步启示了DeepLab的ASPP模块以及用于对象检测的FPN。
2016年：DenseNet

严密衔接的卷积网络

康奈尔大学的DenseNet进一步扩展了ResNet的想法。它不只提供各层之间的跳过衔接，而且还具有来自一切先前各层的跳过衔接。
2017年：SENet

挤压和激励网络

Xception网络证明，跨渠道关联与空间关联关系不大。但是，作为上届ImageNet竞赛的冠军，SENet设计了一个“挤压和激发”区并讲述了一个不同的故事。SE块首先运用全局池将一切通道紧缩为较少的通道，然后运用完全衔接的变换，然后运用另一个完全衔接的层将其“激发”回原来的通道数量。因此，本质上，FC层协助网络了解输入要素图上的留意力。
2017年：ShuffleNet

一种用于移动设备的极其高效的卷积神经网络

ShuffleNet构建在MobileNetV2的倒置瓶颈模块之上，他以为深度可分离卷积中的点式卷积会牺牲准确性，以换取更少的计算量。为了补偿这一点，ShuffleNet添加了一个额外的通道改组操作，以确保逐点卷积不会一直运用于相反的“点”。在ShuffleNetV2中，此通道重排机制也进一步扩展到ResNet身份映射分支，因此身份功能的一部分也将用于重排。
2018：Bag of Tricks

运用卷积神经网络停止图像分类的技巧

“技巧包”重点引见在图像分类区域中运用的常见技巧。当工程师需求提高基准功能时，它可以作为很好的参考。风趣的是，诸如混合加强和余弦学习速率之类的这些技巧有时可以比新的网络体系结构完成更好的改进。
结论

随着EfficientNet的发布，ImageNet分类基准似乎即将结束。运用现有的深度学习方法，除非发生另一种形式转变，否则我们永远不会有一天可以在ImageNet上达到99.999％的准确性。因此，研讨人员正在积极研讨一些新颖的范畴，例如用于大规模视觉辨认的自我监督或半监督学习。同时，运用现有方法，对于工程师和企业家来说，找到这种不完美技术的实践运用曾经成为一个成绩。
后台私信回复“20200821”获取论文大礼包
Reference
Y. Lecun, L. Bottou, Y. Bengio, P. Haffner, Gradient-based Learning Applied to Document Recognition
Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, ImageNet Classification with Deep Convolutional Neural Networks
Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks for Large-Scale Image Recognition
Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, Going Deeper with Convolutions
Sergey Ioffe, Christian Szegedy, Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Deep Residual Learning for Image Recognition
François Chollet, Xception: Deep Learning with Depthwise Separable Convolutions
Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam, MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Application
Barret Zoph, Vijay Vasudevan, Jonathon Shlens, Quoc V. Le, Learning Transferable Architectures for Scalable Image Recognition
Mingxing Tan, Quoc V. Le, EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger, Densely Connected Convolutional Networks
Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Enhua Wu, Squeeze-and-Excitation Networks
Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, Jian Sun, ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
Tong He, Zhi Zhang, Hang Zhang, Zhongyue Zhang, Junyuan Xie, Mu Li, Bag of Tricks for Image Classification with Convolutional Neural Networks
https://towardsdatascience.com/10-papers-you-should-read-to-understand-image-classification-in-the-deep-learning-era-4b9d792f45a7end

编辑：黄继彦
校正：杨学俊

—完—

想要获得更多数据迷信范畴相关动态，诚邀关注清华-青岛数据迷信研讨院官方微信公众平台“ 数据派THU ”。

yuan130 · 2020-8-22 06:12:29

分享了

走过这片荒芜 · 2020-8-22 06:23:55

分享了

qwe654 · 2020-8-22 22:17:14

广告位，，坐下看看

伪善の上帝 · 2020-8-23 15:28:14

除了666我无话可说

摩天轮e愛 · 2020-8-24 15:41:11

楼主呀，，，您太有才了。。。

		自动登录	找回密码
密码			立即注册

10篇论文带你入门深度学习图像分类（附下载）

本帖子中包含更多资源

大神点评5

最近发表

公社版块

关注我们