智能图像识别初探系列（五）

connie10591 · 2022-6-10 09:49:07

一、ResNet模型

接上一篇文章的内容，下面这种CNN模型就更加经典，并且也是目前运用最为广泛的模型了。

在2015年，何凯明提出了152层的ResNet,以3.6%的误差摘得了2015年ILSVRC比赛的桂冠，同时ResNet的提出解决了神经网络中因为网络深度导致的"梯度消失"的问题，并提供了一个非常好的思路。我们一般认为，网络结构愈深（复杂，参数多）愈是有着更强的表达能力。

凭着这一基本准则CNN分类网络自Alexnet的7层发展到了VGG的16乃至19层，后来更有了GoogLeNet的22层。可后来我们发现深度CNN网络达到一定深度后再一味地增加层数并不能带来进一步地分类性能提高，反而会招致网络收敛变得更慢，测试集的分类准确率也变得更差。

排除数据集过小带来的模型过拟合等问题后，我们发现过深的网络仍然还会使分类准确度下降（相对于较浅些的网络而言）。所以为了解决神经网络过深导致的梯度消失的问题，ResNet巧妙地引入了残差结构。

若将输入设为X，将某一有参网络层设为H，那么以X为输入的此层的输出将为H(X)。一般的CNN网络会直接通过训练学习出参数函数H的表达，从而直接学习X到H(X)的映射关系，而残差学习则是致力于使用多个有参网络层来学习输入、输出之间的参差即将输出层H(x)=F(x)改为了H(x)=F(x)+x, 其中X这一部分为直接的identity mapping，而H(X) - X则为有参网络层要学习的输入输出间残差。所以，就算网络结构很深，梯度也不会消失了。

除了残差结构之外，ResNet还沿用了前人的一些可以提升网络性能和效果的设计，如堆叠式残差结构，每个残差模块又由多个小尺度kernel自称，整个ResNet除最后用于分类的全连接层以外都是全卷积的，这大大提升了计算速度。ResNet网络深度有34、50、101、152多种。50层以上的ResNet也借鉴了类似GoogLeNet的思想，在细节上使用了bottleneck的设计方式。

到目前为止，我们已经介绍了4种基础的网络结构和设计网络时涉及的主要思想。在ResNet之后，还有很多新的网络结构不断出现，但主要思想大体上都是基于以上4种类型做的一些改进。当然不同的网络结构有其可以达到的算法精度机器内存消耗情况。比如，VGGNet占用最多的计算量并且消耗最大的内存，GoogLeNet是四种模型中计算量和内存消耗最小的模型，然而AlexNet虽然计算量不高，但也会占用较大的内存并且精度也不高，而不同大小的ResNet模型性能差异也较大，具体情况需要根据实际的应用场景选择合适的模型。
二、关键点检测

了解了整体网络结构后，我们来对图像识别中具体的技术做个介绍。

在图像识别中，对于图像中关键点的检测技术尤为重要，比如人脸识别怎样识别眼睛、鼻子，以及各种人体姿势、动作。

首先呢，我们看一下在传统的方式里边，我们怎么样去检测人体的关键点。作为传统方式，是指我们不太使用人工智能的方式，我们直接通过模板匹配去查找人体的关键点。我们看的一般是分为四个过程，第一个过程呢。我们先在图像里边找到人，再针对图像进行一个简单的处理，就是说归一化，或者说二值化，裁边旋转等等这些操作，那么然后我们对人体骨骼关键点进行提取，也就是说，把人体骨骼的那些特征给他找出来这些特征呢。

更多的是指图像不变性的一些特征，比如说就有旋转不变性或缩放不变形这些特征。然后我们进行最后一步，也就是我们要将人体骨骼的关键点给他找出来啊。这是传统的方式。当然我们人工智能方式呢，跟这个就不太一样了。

我们先看看传统方式，我们是使用模板匹配，比如说图中有一对眼睛，我们要在图像里面把这个眼睛找到，那我们实际上是有一个模板，然后将这个模板在这个图像里边进行不断的挪动，跟人、跟每一个像素点都进行匹配。然后呢，找到跟哪个像素点的匹配度最高，我们就说找到了这个位置。但是模板匹配有一个难题，这个模板要尽可能多的匹配更多的姿势，这样我们才能够找到人体的具体目标。

那么在传统算法里边呢因为我们要匹配更多的姿势。所以说呢，我们怎么样让这个模板能够跟人的更多的动作都一样。也就是说，有的人可能是在正在举起双手，有的人呢是在跳跃把这个双腿是蜷起来的。总之有各种各样的状态，那我们怎么样让他能够更好的匹配呢。我们一般的呢，确定两个关系我们要找到一个模板，然后我们要确定一个模板关系。

实际上，有人提出来一个方法。我们看到比如人的基本的架构，我们找到了。比如说胳膊、眼睛鼻子嘴，这张图是一个脸部的，然后耳朵，头发。浙西就是他身体的关键。然后我们看关键点之间，他用的是弹簧径行进行标记，这就表示关键点之间，他的这个位置关系等等具有一定的弹性。具有一定的弹性，从而保证我们当前这个模板具有更高的鲁棒性，或者说这个模板能够匹配更多的动作。鲁棒性就是指适应性更强。

我们接着往下看，这是后人对他进行的一个改进。我们可以看到他还是基于这个框架，当然，基于这个框架基础之上呢？我们可以把人的，比如分成几个模块，这每一个模块的可能他有不同的位置，或者说不同的关系等等。当然我们说这本身任何一个算法都是解决具体问题的，但是有的算法是开拓性的创造的一个领域。他可能是有两种可能。一种是他特别厉害，另外一种可能就是说这个算法本身不太完善。在这个基础上进行改善的话后人提出了小块思维。也就是说把人体的很多的特征分成了一小块一小块，然后呢。我们针对各个小块进行分析。最后分析出来这个人到底是什么样的一个特质。

那么具体到图像上面又是怎样一个展现形式呢？且看下回分解。

百步飞剑之月尽 · 2022-6-10 15:23:26

支持你哈...................................

核平小日a · 2022-6-12 11:38:55

关注，等大神更新完了再看！楼主加油！

8090ANDY · 2022-6-13 09:37:49

支持楼主，用户楼主，楼主英明呀！！！

		自动登录	找回密码
密码			立即注册

智能图像识别初探系列（五）

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们