选自arXiv
作者:Yi Tay等人
机心编译
编辑:蛋糊
Google和DeepMind:以Transformer为例,分析归纳偏差对模型缩放的影响。
近年来,变压器模型的缩比引起了许多学者的研究兴趣。然而,人们并不太了解模型架构所施加的不同归纳偏差的标度特性。一般来说,假设特定规模(计算、大小等)的改进。)可以迁移到不同的尺度和计算区域。
但是,理解架构与标度律的相互作用非常重要,设计在不同标度下表现良好的模型具有重要的研究意义。有几个问题需要澄清:模型架构之间的可伸缩性不同吗?如果是,电感偏置如何影响缩放性能?它如何影响上游(预训练)和下游(迁移)任务?
在最近的一篇论文中,谷歌的研究人员试图了解归纳偏差(架构)对语言模型的标度律的影响。为此,研究人员在多个计算领域和范围(从1500万到400亿个参数)预训练和微调了十种不同的模型架构。总体而言,他们预训练和微调了100多个不同架构和规模的模型,并提出了扩展这十个不同架构的见解和挑战。
论文链接:https://arxiv.org/pdf/2207.10551.pdf
他们还注意到,扩展这些模型并不像看起来那么简单,也就是说,扩展的复杂细节与本文详细研究的架构选择交织在一起。例如,Universal Transformers(和ALBERT)的一个特性就是参数共享。与标准转换器相比,这种架构选择不仅在性能方面,而且在FLOPs、速度和参数数量等计算指标方面,都显著扭曲了缩放行为。反而像开关变压器这种型号就大不一样了,它的FLOPs和参数的关系也不一般。
具体而言,本文的主要贡献如下:
首次导出了不同归纳偏差和模型架构的标度律。研究人员发现,这一比例系数在不同的模型中差异很大,并指出这是模型开发中的一个重要考虑因素。事实证明,在他们考虑的所有十种架构中,普通变压器的伸缩性能最好,即使它在每个计算领域的绝对性能都不是最好的。
研究人员观察到在一个计算规模区域工作良好的模型在另一个计算规模区域不一定是最好的模型。此外,他们发现,尽管一些模型在低计算领域表现良好,但它们很难扩展。这意味着在某个计算区域内,通过逐点比较很难得到模型可扩展性的全貌。
研究人员发现在扩展不同的模型架构时,上游预训练的混乱可能与下游迁移无关。因此,底层架构和感应偏置对于下游迁移也至关重要。
研究人员强调了在一些框架下缩放的难度,并表明一些模型没有缩放(或以负趋势缩放)。他们还发现,线性时间注意力模型(如Performer)很难扩展。
方法和实验
在论文的第三章,研究者概述了整个实验的设置,并介绍了实验中的评价模型。
下面的表1显示了本文的主要结果,包括可训练参数数量、FLOPs(单次正向传输)和速度(每秒步数)等。此外,它还包括验证混淆(上游预训练)和17个下游任务的结果。
所有模型的缩放方式都一样吗?
下图2显示了当FLOPs数量增加时,所有模型的缩放行为。可以观察到,所有模型的缩放行为都是非常独特和不同的,也就是说,它们中的大多数都不同于标准变压器。也许最大的发现是,大多数模型(如LConv、Evolution)的性能似乎与标准变压器一样好,甚至更好,但它们无法根据更高的计算预算进行扩展。
另一个有趣的趋势是,“线性”转换器,如Performer,是不可伸缩的。如图2i所示,从基础到大规模,预训练的混淆度仅下降了2.7%。对于普通变压器,这个数字是8.4%。
图3显示了下游迁移任务中所有模型的缩放曲线。可以发现,与Transformer相比,大多数模型都有不同的缩放曲线,在下游任务中变化明显。值得注意的是,大多数模型都有不同的上游或下游缩放曲线。
研究人员发现,一些模型,如漏斗变压器和LConv,似乎在上游表现相当好,但在下游受到很大影响。至于Performer,上下游的业绩差距似乎更大。值得注意的是,强力胶的下游任务通常需要在编码器上进行伪交叉注意,这是卷积之类的模型无法处理的(Tay et al .,2021a)。
因此,研究人员发现,尽管一些模型具有良好的上游性能,但它可能仍然很难学习下游任务。
每个尺度的最佳模型都不一样吗?
下图显示了根据上游或下游绩效进行计算时的帕累托边界。图表的颜色代表不同的型号。可以观察到,每个比例和计算区域的最佳模型可能不同。另外,这也可以从上面的图3中看出。例如,进化的变压器似乎在微小到小的区域(下游)表现得和标准变压器一样好,但是当模型被放大时,这种情况迅速改变。研究人员在MoS变压器中也观察到了这一现象。它在某些领域的性能明显优于普通变压器,而在其他领域则不然。
各模型的标度律
下表2显示了各种条件下每个模型的拟合线性直线α的斜率。研究人员通过绘制F(FLOPs)、U(上游混淆)、D(下游准确度)和P(参数量)来获得α。一般来说,α描述模型的可扩展性,比如α _ f,U根据上游性能画FLOPs。唯一的例外是α _U,D,它是衡量上游和下游性能的指标。较高的αU,D值意味着迁移到下游任务的模型伸缩性更好。一般来说,α值是一个度量,它表示模型在缩放中的相对性能。
扩展协议会以同样的方式影响模型架构吗?
下图显示了四种模型架构(MoS-Transformer、Transformer、Evolved Transformer、LConv)中缩放深度的影响。
下图显示了在相同的四种架构中扩展宽度的影响。首先,在上游(负对数难题)曲线上,可以注意到,虽然不同架构在绝对性能上有明显的差异,但缩放趋势还是非常相似的。下游,除了LConv,深度扩展(上面的图4)似乎对大多数架构都有相同的影响。同时,与宽度缩放相比,Evolved Transformer似乎在应用宽度缩放方面略胜一筹。值得注意的是,与宽度缩放相比,深度缩放对下游缩放的影响要大得多。
更多详情请参考原论文。
剧终
授权请联系本微信官方账号。
投稿或寻求报道:content@jiqizhixin.com