请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

AI前沿论文:计算机视觉Transformer技术全面调研

xyc999 2022-11-23 23:09:34 显示全部楼层 阅读模式
AI前沿论文:计算机视觉Transformer技术全面调研-1.jpg

《A Comprehensive Survey of Transformers for Computer Vision》


AI前沿论文:计算机视觉Transformer技术全面调研-2.jpg

论文链接:https://arxiv.org/abs/2211.06004

本文对视觉Transformer(ViT)进行调研,包括图像分类、检测、分割、压缩、超分辨率、去噪和异常检测等方向,回顾每个类别中的技术,并进行详细的分析和比较, 作为一种特殊类型的Transformer,视觉Transformer(ViTs)被用于各种计算机视觉应用(CV),如图像识别。

卷积神经网络(CNN)有几个潜在的问题可以用ViTs来解决。对于压缩、超分辨率、分割和去噪等图像编码任务,使用ViTs的不同变体。本次调查的目的是呈现ViTs在CV中的首次应用。据我们所知,该调查是第一次针对CV的ViTs进行此类调研。在第一步中,我们对ViTs适用的不同CV应用进行分类。
CV应用包括图像分类、目标检测、图像分割、图像压缩、图像超分辨率、图像去噪和异常检测。我们的下一步是回顾每个类别中的最新技术,并列出可用的模型。接下来,我们对每个模型进行详细的分析和比较,并列出其优缺点。之后,我们展示了每个类别的见解和经验教训。此外,我们讨论了几个开放的研究挑战和未来的研究方向。
1. 简介

VISION transformers(ViTs)是为视觉相关的任务设计的,包括图像识别。最初Transformers被用来处理自然语言(NLP)。Transformers的双向编码器表示法(BERT)和生成性预训练Transformers(GPT3)是用于自然语言处理的Transformers模型的先驱者。
语言处理的Transformers模型的先驱。相比之下,经典的图像处理系统使用卷积神经网络(CNN)来完成不同的计算机视觉(CV)任务。最常见的CNN模型是AlexNet, ResNet, VGG, GoogleNet, Xception, Inception, DenseNet, 和EfficientNet。

AI前沿论文:计算机视觉Transformer技术全面调研-3.jpg

为了跟踪两个输入标记之间的注意联系,使用了Transformers。随着记号数量的增加,成本也在不断上升,像素是最基本的测量单位,而计算正常图像中的每个像素都会很耗时。然而,ViTs采取了如下几个步骤叙述:
1. ViTs将整个图像划分为一个个小的图像网格斑块;
2. ViTs应用线性投影来嵌入每个补丁;
3. 然后,每个嵌入的斑块成为一个标记,由此产生的嵌入斑块的序列被传递到Transformers编码器(TE);
4. 然后,TE对输入的补丁进行编码,输出的结果被交给多层感知器。然后,TE对输入补丁进行编码,输出给多层感知器(MLP)头,而MLP头的输出则是MLP头的输出就是输入类别。

AI前沿论文:计算机视觉Transformer技术全面调研-4.jpg

图1. 用于图像分类的ViT
图1显示了ViTs的主要图示。开始时,输入的图像被划分为较小的斑块。然后用线性投影法将每个斑块嵌入。嵌入的斑块被创建为标记,并作为输入给TE 作为输入。多头关注和归一化被TE用来编码嵌入斑块的信息。编码嵌入斑块中的信息。TE的输出被交给MLP头,MLP头的输出就是输入图像类别。
对于图像分类,最流行的架构是使用TE来转换多个输入标记。然而,Transformers的解码器也可用于其他目的。正如在2017年的描述,Transformers已经迅速蔓延到整个NLP,成为最广泛使用和最有前途的设计。
对于CV任务,ViTs在2021年被应用。其目的是构建一连串的补丁,这些补丁一旦被重构为向量,被标准的转换器解释为单词。想象一下,NLPTransformers的注意机制被设计来捕捉文本中不同词之间的关系。在这种情况下,CV会考虑到图像的不同斑块之间的关系。
在2021年,一个纯粹的Transformers在图像分类中的表现超过了CNNs分类。2021年6月,一个Transformers的后端被添加到传统的ResNet中。添加到传统的ResNet中,极大地降低了成本,同时提高了准确性。
在同一年,几个关键的ViTs版本被发布,各种变体更有效、更准确,或适用于特定区域。SwinTransformers是最突出的变体。使用一个多阶段的方法并改变了注意机制,SwinTransformers在物体检测数据集上取得了尖端的性能。
还有TimeSformer,它是针对视频理解问题而提出的,可以通过分割的时空注意力来捕捉空间和时间信息,通过分割的时空注意力。ViTs的性能受到优化器、数据集特定的超参数和网络深度等决定的影响。优化CNN网络明显更容易。
即使在数据量没有ViTs要求的那么大的情况下进行训练,CNN的表现也是令人钦佩的。很明显,CNN表现出这种独特的行为是因为一些归纳性的偏见,它们可以利用这些偏见来更快地理解归纳偏见,它们可以更迅速地理解图像的特殊性,即使它们最终会限制了它们,使它们更难以识别全局联系。另一方面,ViTs则没有这些偏见。这些偏见,使他们能够捕捉到更广泛和更多的全局的关系,但代价是更难的。
数据训练

虚拟现实也更能抵抗输入的视觉失真。如敌意斑块和排列组合。反过来说。倾向于一个架构而不是另一个架构可能不是最好的选择。卷积层和ViTs的组合已经被证明在许多情况下产生了很好的效果。已被证明在许多CV任务中产生了出色的结果
为了训练这些模型,人们开发了其他的方法由于需要大量的数据。以下方法是可行的。训练一个神经网络几乎是自主的,使其能够推断出一个特定问题的特征,而不需要一个大的数据集或精确的标签。这可能是训练ViTs的能力,而不需要大量的视觉数据集,这使得这种新的架构如此吸引人。ViTs已经在许多CV工作中得到了应用,并取得了出色的成绩优秀的,在某些情况下,尖端的成果。
以下是一些重要的应用领域:
- 图像分类
- 异常情况检测
- 物体检测
- 图像压缩
- 图像分割
- 视频深层假象检测
- 聚类分析

AI前沿论文:计算机视觉Transformer技术全面调研-5.jpg

图2. 将ViTs用于CV应用
图2显示了ViTs在图像分类、物体检测、图像分割、图像压缩、图像超分辨率、图像去噪和异常检测方面,ViTs的应用比例分别为50%、40%、3%。去噪和异常检测的比例分别为50%、40%、3%、小于1%,小于1%,2%和3%。
ViTs已被广泛用于CV任务中。虚拟现实技术可以解决CNN所面临的问题。不同的变体ViTs被用于图像压缩、超分辨率。

AI前沿论文:计算机视觉Transformer技术全面调研-6.jpg

图3. 报告的组织
去噪和分割。随着CV应用中ViTs的进步,需要进行一次最先进的调查。随着CV应用中ViTs的进步,需要进行一次最先进的调查。突出ViTs在CV任务中的表现。在这项调查中
在这项调查中,我们首先对CV的不同应用进行分类,例如图像分类、物体检测、图像分割、图像压缩、图像超分辨率、图像处理等。以及使用ViTs的异常检测。在接下来的步骤中我们调查了每个CV应用中的最先进技术,并将现有的基于ViT的模型列在表格中。表明现有的基于ViT的模型。我们还讨论了每个模型的优点和缺点。我们提出了每个CV应用的经验教训。
2. 相关工作

在文献中,已经对虚拟现实进行了许多调查文献。某些论文回顾了理论概念、基础。和内存效率的变压器的应用。他们还讨论了高效Transformers在NLP中的应用。在NLP中的应用。然而,CV任务并不包括在内。一项类似的研究,研究了ViTs的理论方面、Transformers的基础、多头注意力在NLP中的作用。Transformers的基础,多头注意力在Transformers中的作用,以及Transformers的应用。
以及Transformers在图像分类、分割、超分辨率和物体检测中的应用。该调查并不包括Transformers在图像去噪和压缩方面的应用。在一些论文中,作者描述了用于分割、分类和检测图像中物体的Transformers的结构。作者讨论了Transformers在低级视觉和生成方面的应用,如图像着色、图像超分辨率、图像生成和文本到图像的转化。超分辨率,图像生成,以及文本到图像的转换。此外,该调查还关注了高层次的视觉任务,如分割和物体检测。然而,该调查没有讨论用于图像压缩和分类的Transformers。
3. VIT在CV中的应用

除了经典的ViTs,经典ViTs的修改版本也被用于物体检测、图像分割、压缩、超分辨率、去噪和异常检测。
A. 用于图像分类的ViTs

在图像分类中,图像最初被划分为斑块;这些斑块被线性地送入Transformers编码器,其中MLP、归一化和多头注意力应用于创建嵌入式补丁。嵌入的斑块被送到MLP头,它预测输出类别。
B. 用于物体检测的ViTs

自从Transformers发展到CV以来,驯服预训练的香草ViT用于物体检测的努力从未停止。Beal等人是第一个使用更快的基于区域的卷积神经网络(R-CNN)检测器与一个有监督的预训练的ViT用于物体检测。你只需看一个序列(YOLOS)建议仅仅使用一个预训练的ViT编码器来进行物体检测。
纯粹的序列到序列的方式进行物体检测。Li等人是第一个对香草ViT在物体检测方面进行了大规模的研究使用复杂的屏蔽图像建模(MIM)预训练的表征,证实了vanilla ViT在物体级识别中的潜力和能力。
C. 用于图像分割的ViTs

图像分割也可以用Transformers来完成。A中使用了ViT和U-Net的组合来分割医学图像。作者将经典U-Net的编码器部分替换为经典的U-Net的编码器部分改为变压器。一个多图层的腹部标识挑战数据集,该数据集来自MICCAI 2015。通过使用使用分辨率为224的图像,TransUNet取得了一个平均骰子分数为77.48%,而使用分辨率为512,它取得了84.36%的平均骰子得分。
D. 用于图像压缩的ViTs

近年来,基于学习的图像压缩一直是是研究的重点。对于基于学习的有损图像压缩学习,不同的基于CNN的架构被证明是有效的。随着ViTs的发展,基于学习的图像压缩也由基于Transformers的模型完成。也由基于Transformers的模型完成。ViT。由于该熵模块使用了一个Transformers,这个模型被称为Entroformer。Entroformer有效地捕捉了概率分布估计中的长距离依赖性。分布的估计。在柯达数据集上,他们展示了Entroformer的性能。当该模型被优化为平均平方误差(MSE)损失函数。平均峰值信噪比(PSNR)和多尺度结构相似度(MS-SSIM)分别为27.63dB和0.90132。
E. 用于图像超分辨率的ViTs

CNN已经被用于执行图像超分辨率。由于ViT比CNN的优势,图像超分辨率也可以通过Transformers实现。也可以通过Transformers实现。空间-时间的ViT,是一个基于Transformers的微观图像超分辨率模型。这是一个基于变压器的微观图像超分辨率模型。此外,该模型还解决了视频超分辨率的问题。为了测试该为了测试模型的性能,作者使用了一个视频数据集。PSNR对静态和动态视频进行了计算。静态、中等、快速和极端运动都被考虑在内。快速和极端运动被考虑在内。静态的PSNR静态的PSNR为34.74 dB,而中等、快速和极端的PSNR分别为30.15 dB、26.04 dB和22.95 dB。
F. 用于图像去噪的ViTs

对研究人员来说,图像去噪也是一个具有挑战性的问题。研究人员来说也是一个具有挑战性的问题。尽管如此,ViT已经找到了一个解决方案。ATransformers被用来对CT图像进行去噪。他们提出了一个名为TED-Net的模型,用于低剂量CT去噪。作者在编码器和解码器部分都使用了一个变压器。使用AAPM-Mayo诊所的LDCT大挑战数据集,他们获得了结构性的数据集,他们获得了结构相似度(SSIM)为0.9144,均方根误差(RMSE)为8.7681。
G. 异常检测的ViTs

此外,ViT被用于异常检测。一种新颖的用于图像异常检测和定位的ViT网络(VT-ADL)是在中开发的。在他们的研究中,作者使用了一个名为BTAD的真实世界数据集。该模型也被在两个公开可用的数据集MNIST和MVTec上进行测试。对于这三个数据集,他们计算了该模型的每个区域重叠(PRO)得分。对于MNIST数据集,平均PRO分数为0.984。MNIST数据集的平均得分是0.984,MVTec数据集是0.807。和BTAD数据集的0.89。同样,在[71]中,作者提出了AnoViT用于异常现象的检测和定位。使用了MNIST、CIFAR和作者使用了MVTecAD数据集。基于MINST、CIFAR和MVTecAD数据集,其平均面积在区域操作特征(AUROC)曲线的平均面积为92.4、60.1和78。
Yuan等人在中提出了TransAnomaly,一个基于视频ViT 和基于U-Net的框架,用于检测视频中的异常情况。异常现象的框架。他们使用了三个数据集,Pred1、Pred2和大街。三个数据集的曲线下面积(AUC)计算结果分别为84.0%、96.10%和85.80%。没有使用滑动窗口法(swm)。该模型的AUC分别为86.70%、96.40%和87.00%。
尽管在不同的图像编码和CV任务中显示出有希望的结果。除了高计算成本。大型训练数据集、神经结构搜索、Transformers的可解释性以及高效的硬件设计,ViTs的实施仍然面临挑战。本节旨在解释ViTs的挑战和未来方向:
01. 高计算成本
在基于ViT的模型中,有数百万的参数。
需要具有高计算能力的计算机来训练这些模型。由于其成本高,这些高性能的计算机增加了ViTs的计算成本。与CNN相比,ViT的表现更好;然而,其计算成本要高得多。研究人员面临的最大挑战之一是降低ViT的计算成本。
02. 大型训练数据集
ViTs的训练需要大量的数据。在一个小的训练数据集,ViTs的表现很差。用ImageNet1K数据集训练的ViT ImageNet1K数据集的表现比ResNet差,但用ImageNet21K训练的ViT用ImageNet21K训练的ViT表现比ResNet好。
03. 神经结构搜索(NAS)
人们对CNN的NAS进行了大量的探索。CNNs的探索。相比之下,NAS还没有为ViTs进行过探索,对ViTs的NAS探索给年轻的研究者提供了一个新的未来的新方向。
04. Transformers的可解释性
很难直观地看到输入标记对最终预测的相对贡献。符号对最终预测的相对贡献源于每一层的注意力会在后续层中混合,这个问题仍未解决。
05. 硬件高效设计
功率和处理要求会使大规模的ViTs网络不适合边缘设备和资源受限的情况,如物联网。ViTs网络不适合边缘设备和资源受限的情况,如物联网(IoT)。
4. 结论

使用ViTs进行图像编码和CV,而不是CNN正变得越来越普遍,和CV而不是CNN。自从引入用于图像分类的经典ViT后,ViT在分类、检测、分割、压缩和图像超分辨率方面的应用急剧增加。自从引入经典的ViT用于图像分类以来,ViT的使用急剧增加。本调查介绍了关于ViTs的现有调查,强调了ViTs的不同变体在CV中的应用。
该调查研究了ViTs在图像分类、物体检测、图像分割、图像压缩、图像超分辨率、图像去噪、异常情况检测等方面的应用。我们还介绍了在每个类别中所获得的经验。
此外,我们还讨论了研究人员在实施ViTs时面临的研究挑战,如高计算成本、大型训练数据集、Transformers的可解释性和硬件效率。通过提供未来的方向,我们给年轻的研究人员提供了一个新的视角。

AI前沿论文:计算机视觉Transformer技术全面调研-7.jpg

图片来源于网络
投稿、申请转载、合作、AI课程推广,请联系我们
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册