解锁 CNN 和 Transformer 正确结合方法,字节跳动提出有效的下一代视觉 Transformer

唐高祖2022-09-23  15

解锁 CNN 和 Transformer 正确结合方法,字节跳动提出有效的下一代视觉 Transformer

机器心脏报告

机器之心编辑部

来自字节跳动的研究人员提出了下一代视觉变压器,即Next-ViT,可以有效地部署在真实的工业场景中。接下来——ViT可以像CNN一样快速推断,并且拥有和ViT一样强大的性能。

由于复杂的注意机制和模型设计,大多数现有的视觉变压器(ViT)在真实的工业部署场景中无法像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能像CNN一样快,像ViT一样强大吗?

最近的一些努力试图设计CNN-Transformer混合架构来解决这个问题,但是这些努力的总体性能远不能令人满意。基于此,来自字节跳动的研究人员提出了下一代视觉变压器——NEXT-VIT,可以有效地部署在真实的工业场景中。从延迟/精度权衡的角度来看,Next-ViT的性能与优秀的CNN和ViT相当。

地址:https://arxiv.org/pdf/2207.05501.pdf

Next-ViT的研究团队部署了友好的机制,通过开发新的卷积块(NCB)和变压器块(NTB)来捕获局部和全局信息。然后,本研究提出了一种新的混合策略NHS,旨在将NCB和NTB堆叠在一个高效的混合范例中,以提高各种下游任务的性能。

大量实验表明,Next-ViT在各种视觉任务的延迟/精度权衡上,明显优于现有的CNN、ViT和CNN-Transformer的混合架构。与ResNet相比,Next-ViT在TensorRT中高5.4 mAP(40.4 VS 45.8),在ADE20K分段中高8.2% mIoU(38.8% VS 47.0%)。同时,Next-ViT的性能与CSWin相当,推理速度提高了3.6倍。在CoreML上,Next-ViT在COCO检测任务中比EfficientFormer高4.6个mAP(42.6对47.2),比ADE20K分割高3.5% mIoU(从45.2%到48.7%)。

方法

Next-ViT的整体架构如下图2所示。Next-ViT遵循分层金字塔架构,每一级都有一个面片嵌入层和一系列卷积或变换块。空之间的分辨率会逐渐降低到1/32,而通道维度会分阶段扩大。

首先,研究人员深入设计了信息交互的核心模块,并开发了强大的NCB和NTB来模拟视觉数据的短期和长期依赖性。在NTB中,融合了局部和全局信息,进一步提高了建模能力。最后,为了克服现有方法的固有缺陷,本研究系统地研究了卷积和变换器模块的集成,并提出了NHS策略来堆叠NCB和NTB以构建新的CNN-变换器混合架构。

NCB

研究人员分析了几种经典的结构设计,如下图3所示。ResNet [9]提出的瓶颈块由于其固有的归纳偏向性和在大多数硬件平台上的易部署性,长期以来一直在视觉神经网络中占据主导地位。不幸的是,与变压器块相比,瓶颈块的效率较低。ConvNeXt block NCB已经有效地学习了本地表示,下一步是捕获全局信息。变压器架构具有很强的捕捉低频信号的能力,可以提供全局信息(如全局形状和结构)。通过模仿Transformer block的设计实现了瓶颈block的现代化。虽然ConvNeXt块提高了网络性能,但它在TensorRT/CoreML上的推理速度受到低效组件的严重限制。变形金刚积木在各种视觉任务中取得了优异的成绩。但是变压器块的推理速度比TensorRT和CoreML上的瓶颈块慢很多,因为它的注意机制比较复杂,这在大多数真实的工业场景中是难以承受的。

为了克服上述模块存在的问题,本研究提出了下一级卷积模块(NCB ),它保留了瓶颈模块的部署优势,获得了变压器模块的优异性能。如图3 (f)所示,NCB遵循MetaFormer的一般架构(已被证明对Transformer block至关重要)。

此外,高效的基于注意力的令牌混合器也同样重要。在这项研究中,我们设计了多头卷积注意力(MHCA)作为部署卷积运算的有效令牌混合器,并使用MHCA和MLP层在元形成器的范式中构建NCB这项研究比较了Next-ViT与CNN、ViT和一些最近的混合架构的语义分割任务。如下表5所示,大量实验表明,Next-ViT在任务分割方面具有优异的潜力。。

NTB

[20]

然而,相关研究发现,变换块可能会在一定程度上恶化高频信息,如局部纹理信息。不同频段的信号在人类视觉系统中是必不可少的,它们以一定的方式融合在一起,提取出更本质、更独特的特征。

受这些已知结果的影响,该研究开发了Next Transformer Block (NTB),以在一个轻量级的机制中捕获多频信号。此外,NTB可以用作有效的多频率信号混合器,进一步增强整体建模能力。

国民健康保险制度

最近,为了有效部署,已经做出了一些努力来结合CNN和Transformer。如下图4 (b)和(c)所示,几乎都是在浅阶段采用卷积块,最后一两级才叠加变换块。这种组合在分类任务中是有效的。然而,本研究发现,这些混合策略很容易在下游任务(如分割和检测)中达到性能饱和。原因是分类任务只使用最后一级的输出进行预测,而下游任务(如分割和检测)通常依靠每一级的特征来获得更好的结果。这是因为传统的混合策略只在最后几个阶段堆叠变压器块,浅层无法捕捉全局信息。

本研究提出了一种新的混合策略(NHS),该策略创造性地将卷积块(NCB)和变换块(NTB)与(N+1) * L混合范式相结合。NHS在控制变形块比例的情况下,显著提高了模型在下游任务中的性能,实现了高效部署。

首先,为了赋予浅层捕捉全局信息的能力,本研究提出了(NCB × N+NTB × 1)模式混合策略,在每一级依次堆叠N个NCB和一个NTB,如图4 (d)所示。具体来说,变压器块(NTB)被放置在每个阶段的末尾,以便模型可以学习浅层中的全局表示。在本研究中,进行了一系列实验来验证所提出的混合策略的优越性。不同混合策略的性能如下表1所示。

另外,如下表2所示,大型号的性能会逐渐达到饱和。这一现象表明,通过放大(NCB × N+NTB × 1)模式的N,即简单地增加更多的卷积块来扩大模型规模,并不是最佳选择。(NCB × N+NTB × 1)模式下N的取值可能会严重影响模型性能。

因此,研究人员开始通过大量的实验来探索n的值对模型性能的影响。如表2(中间)所示,在本研究的第三阶段构建了具有不同n值的模型。为了构建具有相似延迟的模型进行公平比较,本研究在N的值较小时堆叠L-群(NCB × N+NTB × 1)模型。

如表2所示,第三阶段中N = 4的模型实现了性能和延迟之间的最佳折衷。本研究在第三阶段对(NCB × 4+NTB × 1) × L模式的L进行扩展,进一步构建更大的模型。如表2(底部)所示,与小模型相比,基本(L = 4)和大(L = 6)模型的性能显著提高,这验证了所提出的(NCB × N+NTB × 1)× L模型的一般有效性。

最后,为了提供与现有SOTA网络的公平比较,研究人员提出了三种典型的变体,即Next-ViTS/B/L B/L

实验结果

ImageNet-1K上的分类任务

与最新的SOTA方法(如CNN、ViT和混合网络)相比,Next-ViT在准确性和延迟之间取得了最佳的权衡,结果如下表4所示。

ade 20k上的语义切分任务

[40]

目标检测和实例分割

在目标检测和实例分割任务中,本研究将Next-ViT与SOTA模型进行了比较,结果如下表6所示。

消融实验和可视化

为了更好地理解Next-ViT,研究人员通过评估其在ImageNet-1K分类和下游任务上的性能来分析每个关键设计的作用,并可视化输出特征的傅立叶光谱和热图,以显示Next-ViT的内在优势。

如下表7所示,NCB在所有三个任务上实现了最佳的延迟/准确性权衡。

对于NTB区块,本研究讨论了NTB收缩率R对Next-ViT整体性能的影响。结果如下表8所示。减少收缩率R将减少模型延迟。

此外,r = 0.75和r = 0.5的模型比纯变压器(r = 1)的模型性能更好。这表明以适当的方式融合多频信号将增强模型的表征学习能力。特别地,r = 0.75的模型实现了最佳的延迟/精度折衷。这些结果显示了NTB块的有效性。

本研究进一步分析了Next-ViT中不同归一化层和激活函数的影响。如下表9所示,虽然LN和GELU带来了一定的性能提升,但TensorRT上的推理延迟明显较高。另一方面,BN和ReLU在整个任务中实现了最佳的延迟/精度折衷。因此,ext-ViT统一使用BN和ReLU,以便在真实的工业场景中高效部署。

最后,该研究显示了ResNet、Swin变压器和Next-ViT输出特性的傅立叶光谱和热图,如下图5 (a)所示。ResNet的频谱分布表明,卷积块倾向于捕捉高频信号,很难注意到低频信号。ViT擅长捕捉低频信号,而忽略高频信号;Next-ViT可以同时捕获高质量的多频信号,可见NTB的有效性。

另外,如图5(b)所示,Next-ViT比ResNet和Swin能捕捉到更丰富的纹理信息和更精确的全局信息,说明Next-ViT具有更强的建模能力。

剧终

授权请联系本微信官方账号。

投稿或寻求报道:content@jiqizhixin.com

转载请注明原文地址:https://juke.outofmemory.cn/read/1754963.html

最新回复(0)