AI前沿论文：凝视所见，无需重建的掩码图像建模

摄氏十三度 · 2022-11-24 10:33:24

《Stare at What You See: Masked Image Modeling without Reconstruction》

论文链接：https://arxiv.org/abs/2211.08887

代码和模型网址：https://github.com/OpenPerceptionX/maskalign

引言

掩码自编码器（MAE）已经成为大规模视觉表示预训练的主流范式。通过从一小部分可见图像区域重建掩码图像块，MAE强制模型推断图像中的语义相关系数。最近，一些方法应用语义丰富的教师模型来提取图像特征作为重构目标，从而获得更好的性能。然而，与像素值等低级特征不同，我们认为强大的教师模型提取的特征已经在完整的图像中跨区域编码了丰富的语义相关系数。

这就提出了一个问题：在带有教师模型的掩码图像建模（MIM）中，重构是必要的吗？在本文中，我们提出了一种名为MaskAlign的高效MIM范式。
MaskAlign简单地学习了学生模型提取的可见patch特征和教师模型提取的完整图像特征的一致性。为了进一步提高性能并解决学生和教师模型之间的输入不一致问题，我们提出了一个动态对齐模块来应用可学习对齐。
实验结果表明，即使没有对掩码区域进行重建，掩码建模也不会失去有效性，与动态对齐相结合，MaskAlign可以以更高的效率实现最先进的性能。
1.介绍

近年来，视觉Transformers变换器在计算机视觉领域显示出巨大的潜力。继自然语言处理中的遮蔽建模取得巨大成功后，遮蔽图像建模（MIM）已经展示了自我监督学习的巨大能力，同时缓解了视觉Transformers架构的数据缺少问题。通过MIM学习的视觉表征在各种下游视觉任务上显示出良好的性能，优于传统的学习范式。

图1. 与现有的遮盖图像年龄模型的范例比较

(a) 绘画式。
BEiT, MaskFeat, BEiT V2等等。他们把带有一些掩码标记替换的整个图像作为编码器的输入，再应用线性头来预测被遮蔽的特征。
(b) 解码器式。
MAE, CAE, MCMAE等等。他们放弃大部分标记，将其余的标记作为编码器的输入，然后应用多层变换器从可见的标记中解码被掩盖的特征。
(c)我们的范式。
将一些可见的标记作为编码器的输入，只将可见的标记与目标特征对齐。

现有的遮蔽图像建模（MIM）方法旨在从一小部分可见的图像区域中幻化出完整的图像。如图1所示，现有的MIM方法主要分为两种类型：(a)内画式和(b)解码式。
这两种类型都需要模型来重建被遮蔽的区域，画中画式的模型用可学习的向量替换图像区域，然后通过编码器内的交互作用来填充它们。解码器式的模型将图像区域丢弃，然后根据可见信息从被遮蔽区域的位置解码特征。
一些最近的工作通过使用教师模型提取的特征作为重建目标，将像CLIP这样的富含语义的教师模型引入这两种范式。鉴于教师模型学到的语义知识，这些工作进一步改善了遮蔽图像建模后的表示，导致更好的性能。
对遮蔽区域的重建隐含地迫使模型的编码器理解图像中的语义关联。然而，重建的方式给编码器内部或外部的遮蔽标记带来了很多计算，不管是涂抹式还是解码式，都是如此。这种多余的计算降低了编码器的训练效率，从而增加了预训练成本。
与低层次和孤立的特征不同，如斑块的归一化像素值、定向直方图（HOG）等，由强大的教师模型提取的特征图已经包含了丰富的语义关联，这是在教师模型训练阶段学习的。为了回答这个问题，我们提出了一个更有效的MIM范式，名为MaskAlign，无需对被遮蔽的标记进行任何重构。
与在被掩盖的标记上应用重构相反，MaskAlign只是将学生模型提取的可见特征和教师模型提取的完整图像特征进行对齐。因此，MaskAlign迫使学生模型不仅要通过特征对齐来学习教师模型的良好代表，而且还要通过遮蔽建模来学习幻觉的能力：完整图像和遮蔽视图之间的特征一致性要求学生模型从比教师模型少得多的信息中推断语义。
我们采用教师模型的多层次特征作为监督，以借用更丰富的语义。然而，学生模型的输入包含的信息比教师模型的少得多，导致每层特征的错误对齐。为了解决这个问题，我们用一个动态对齐（DA）模块来增强学生的特征。
DA动态地聚合不同层次的学生特征，并与教师模型的多层次特征对齐。这种方法也可以很容易地转移到不对称的学生-教师结构。
从我们的实验结果来看，MaskAlign在很大范围内的掩码率优于掩码率为0%的情况下，它退化为特征蒸馏法。这验证了对于我们的范式来说，屏蔽式建模仍然是必要的。同时，我们的实验通过比较不同的对齐策略和特征水平的数量，验证了动态对齐的有效性。
屏蔽建模和动态对齐的结合使得我们的模型以更高的效率达到了最先进的结果。例如，我们的模型在ImageNet Finetuning Accuracy（从85.0%到85.4%）上比BEiT v2高出0.4%，而预训练时间仅为1/3。总而言之，我们的工作有三方面的贡献。
1.我们对现有的遮蔽图像建模（MIM）范式进行了分类和反思，并提出了一种更加有效的MIM方法，即MaskAlign。即使不对被遮蔽的标记进行任何重建，MaskAlign也能以更高的效率实现新的先进性能。
2.我们提出了一个动态对齐（DA）模块来解决学生和教师模型之间的输入不一致的问题，其额外的参数和计算量可以忽略不计。
3.我们进行了广泛的实验，以验证MaskAlign和动态对齐的有效性。另一方面，我们的模型在下游任务和更大尺寸的模型上显示了良好的泛化能力。
2.相关工作

遮蔽图像建模。受BERT中的遮蔽图像建模（MLM）的启发，BEiT通过重建DALL-E提取的dVAE特征，在视觉变换器上探索遮蔽图像建模（MIM）。MAE和SimMIM发现，RGB值可以作为遮蔽建模的一个简单但足够好的重建目标。
PeCo、iBOT和MaskFeat分别使用带有感知损失的dVAE、在线to-kenizer和手工制作的HOG描述符，证明了重建目标显示出很大的影响。受此启发，MVP首次将多模态引导的教师模型引入MIM，通过简单地用CLIP特征取代重构目标。
丰富的语义指导导致了令人印象深刻的收益，一些非常近期的工作。BEiT V2 , MILAN和MaskDistill也在他们的模型中包括CLIP。BEiT V2采用CLIP特征来训练他们的离散标记器，而MILAN和MaskDistill则直接使用CLIP特征作为重建tar-gets。所有现有的MIM工作都是基于重建的。在本文中，我们探索了一种没有重构的MIM新范式，它大大缓解了重构的冗余计算所带来的效率问题。

视觉语言预训练

从大规模数据中学习视觉语言表征，在跨模式学习中表现出前所未有的力量。在具有丰富语义的不同文本的指导下，CLIP推进了许多下游视觉任务的转移性能，特别是图像-文本生成，需要充分理解图像内的语义关联。一些现有的遮蔽建模方法采用CLIP特征作为重建目标，优于使用ow级特征的同行。在这项工作中，我们也采用了冻结的CLIP模型，以利用良好的语义，并通过纳入遮蔽图像建模，进一步提高表示能力。

知识蒸馏

知识蒸馏（KD）通过教师模型的输出生成一个软标签来训练学生模型。KD将教师模型的能力转移到学生身上并带来令人印象深刻的收益。由此，KD在各种任务和领域中显示出巨大的潜力。特征提炼（FD）发现，使用教师模型的归一化密集特征来监督学生模型可以显著提高性能。
在本文中，我们利用掩码建模与教师模型对齐，而不是全尺寸输入，从而在性能和训练效率方面都有明显的改善。
3.方法

MaskAlign将学生模型提取的可见特征和冻结的教师模型提取的完整图像特征进行对齐。图2是MaskAlign的概述。在这一节中，我们将详细说明遮蔽和对齐的细节。

3.1. 模型结构

MaskAlign由一个随机初始化的学生模型和一个预训练的教师模型组成。对于学生模型，我们采用[8]中的标准视觉变换器（ViT），以便与现有的工作进行公平的比较。这可以大大降低培训成本，鼓励学生模型学习更好的视觉表现能力。

3.2. 屏蔽策略

为了消除图像的冗余，遮蔽是一项不容易通过从可见的相邻斑块推断来解决的任务。为了从一个完整的图像I中生成一个遮蔽视图V，一种直接的取样策略是随机遮蔽，它按照均匀分布对斑块进行无替换取样。
另一种掩蔽策略是基于教师模型的指导。我们也在我们的范式中研究了专心的遮蔽。注意性掩蔽的目的是将覆盖重要图像区域的标记以高概率送入编码器。通过这样做，来自编码器的潜在代表提供足够的信息来推断语义。我们在第4节对这两种掩蔽策略进行了比较。

3.3. 动态对齐

为了从教师模型中借用更丰富的语义，我们使用多级特征作为监督。然而，用多级监督来对齐学生模型的特征有一个挑战：由于学生模型的输入所包含的信息比教师的少得多，输入的不一致性导致每一层的学生和教师模型之间的不对齐。
为了解决这个问题，我们提出了Dy-namic Alignment（DA）模块。DA可以动态地学习如何在学生和教师模型之间进行对齐。一个转化器通常由一连串的块组成。我们在每个块的输出xi上添加一个适配器Ai，将学生模型的特征空间投射到教师的模型上。
适配器可以是一个轻型模型，如线性层或2层MLP。为了动态地汇总不同层次的学生特征，并与教师模型的多层次特征相一致，我们应用了一个动态对齐矩阵。W，是一个S×T矩阵，其条目为wij，其中S和T是学生和教师模型中的块数。在实验中，我们将学生的特征与教师模型的后几层进行对齐，由超参数K决定。
我们还与没有动态对齐矩阵的对齐进行了比较，即Layer-wise对齐。Layer-wise指的是在没有动态对齐矩阵的情况下逐层对齐特征。第4节的实验结果表明，动态配准优于简单的分层配准，而且几乎没有增加计算量。

3.4. 与现有模型的关系

如图1所示，在这项工作中，我们探索了一种新的蒙皮图像建模范式。像BEiT V1/V2、MaskFeat、MVP这样的绘画式模型同时处理部分遮蔽的图像内容，并产生对遮蔽斑块的预测。全尺寸输入导致这种模型的计算成本很大。
解码器式的模型，如MAE、CAE和MCMAE只将部分图像作为输入。编码器将输入映射为潜像，而解码器则从潜像中重建输入。解码器在全尺寸特征上学习交互，但在预训练后就放弃了。这两种范式都有冗余的重构计算。
与之相反，我们的模型MaskAlign不包括对被掩盖的标记的任何重建。我们的模型只对学生模型提取的可见特征和教师模型提取的完整图像特征进行对齐处理。因此，我们的模型在效率和简单性方面有很大的优势。
4.与先进技术的比较

表1
1. 表1显示了我们的模型和以前最先进的分类方法之间的微调结果，1显示了我们的模型和以前类似模型规模的最先进方法之间的ImageNet微调结果的比较。我们还在表1中列出了正向比率和重构比率，以直观地比较编码器在每个范例中的作用。1中列出了编码器在每个范式中的作用，以便直观地比较。
例如，BEiT V1/V2、Mask-Feat和MVP的编码器在处理全尺寸输入时有40%的标记被屏蔽。在编码过程中，这些40%的遮蔽令牌将在重建目标的监督下被填充。这种模式包括输入中的无效信息，导致了效率的损害和预训练下游任务之间的差距风险。
对于MAE和MILAN，编码器和解码器分别处理25%和100%的补丁。这种模式仍然受到解码器上的计算的影响，因为它在下游任务中被完全放弃了。最近的一项工作FD-CLIP[44]使用CLIP的标准化特征进行蒸馏，因此编码器处理全尺寸输入。与他们相比，我们的模型只处理30%的补丁。
在大大减少训练成本（1/3的前向比率和2/3的PT时代）的同时，我们的模型在Top-1准确率上优于BEiT V2、MaskDistill和FD-CLIP（85.4%对85.0%和84.9%）。检测和分割。为了验证我们方法的通用性，我们通过在Mask R-CNN框架中把预先训练好的ViT-B/16骨干适应于FPN，对COCO物体检测和实例分割进行评估。结果显示在表2。

表2
2. 我们的模型在APbox上达到52.1%，在APmask上达到45.7%。我们的模型优于ViTDet，其预训练历时从1600年缩短到400年，微调历时从100年缩短到25年。动态配准。为了验证动态配准（DA）模块的有效性，我们进行了一系列实验，在有DA和无DA以及不同的顶K之间进行比较。结果显示在表3中。
3. 为了公平地进行比较，我们在ImageNet上对所有的模型进行了200次预训练，在70%的掩码率的设置下，使用Attentive Masking策略和CLIP-B/16作为教师模型。对于对齐类型，动态表示使用我们提出的DA模块，而层级表示逐层对齐特征，没有动态对齐矩阵。
注意力可视化。为了直观地窥视MaskAlign在预训练期间学到的东西，我们将不同模型的最后一个自我注意层的[CLS]标记的注意图可视化。比较结果如图3所示。DINO是通过对比学习来训练的，它使图像的增强视图之间的相似性最小。视图增强中的Ran-dom裁剪使DINO倾向于主要关注原始图像中的突出区域。
因此，DINO的注意力权重通常集中在一个突出的物体上。MAE从可见区域重建被遮蔽的像素，因此更多的纹理信息被学习，导致在与语义理解无关的低层次特征上浪费能力。CLIP与语言有很好的语义一致性，然而，我们惊讶地发现，CLIP的特征与语义区域的对应性很差。
这可能是由其稀疏的文本监督造成的，尽管有CLIP的监督，我们模型的注意力图在以物体为中心的图像和复杂场景中似乎更合理。MaskAlign准确地集中在突出的物体上。在处理复杂场景时，MaskAlign涵盖了一张图像中的不同语义区域。
5.总结

在本文中，我们首先对现有的遮蔽图像建模（MIM）范式进行了分类和反思。绘画式和解码式模型都需要对被遮蔽的标记进行大量运算，从而降低了预训练的效率。
在一些应用语义丰富的教师模型来提取图像特征作为监督的方法之后，我们提出了一种名为MaskAlign的MIM范式，不需要任何重建。MaskAlign只是将学生模型提取的可见特征和教师模型提取的完整图像特征进行对齐。
我们提出了一个动态对齐（DA）模块来解决学生模型和教师模型之间输入不一致的问题。我们进行了广泛的体验来验证我们方法的有效性。我们的模型以更高的预训练效率实现了最先进的性能。在未来，我们将探索MaskAlign在视觉识别方面的扩展性。
6. 更广泛的影响

我们的工作为遮蔽图像建模探索了一个新的范式，这可能鼓励未来的工作重新考虑遮蔽在预训练或提炼中的作用，与现有的基于重建的模型相反。MaskAlign借用教师模型的语义信息来学习特征的一致性，并且不需要对被遮蔽的标记进行任何的叠加，我们的方法显示了强大的表示能力和效率。此外，MaskAlign有一个非常轻便和简单的框架。
在未来，我们可能会继续努力：

找到MaskAlign更多的数学解释；
将MaskAlign转移到大规模的多模式预训练中，以发挥其在效率和简单性方面的优势。

		自动登录	找回密码
密码			立即注册

AI前沿论文：凝视所见，无需重建的掩码图像建模

本帖子中包含更多资源

最近发表

公社版块

关注我们