教大模型自己跳过“无用”层，推理速度 × 3 性能不变，谷歌 MIT 这个新方法火了

四个圈2022-09-23 32

大语言模型很酷，但是推理速度太慢？

而且，如果加大模型体积，推理效果也不一定比以前好。

为了解决这个问题，Google MIT的研究人员提出了一个新的框架CALM，让它自己决定计算量。

如果冷静意识到有些层是“可有可无”的，它会在计算中跳过这些层。

该论文被发布到网上后，立刻火了一波:

有网友说，我们就是需要这样一个更智能、适应性更强的模型。显然，CALM的解码器已经做到了:

用中间层直接输出结果。

CALM代表自信自适应语言建模，即自信自适应大语言模型。

该模型基于变压器架构。为了加快其计算速度，研究人员提出了一种叫做“提前退出”的方法，该方法允许模型根据不同的输入动态决定使用多少层网络进行计算。

也就是说，在计算的过程中，模型不需要计算每一层再输出结果，而是可以利用中间层的特性直接输出token，从而减少模型的计算量。

那么，模型是如何确定“退出”时机的呢？

这需要训练模型学会自己判断。

其中，Yfull是标准模型的输出结果，Yearly是模型“提前退出”时的输出结果。为了更好地完成年度工作，有必要尽可能地使之与Yfull保持一致。

当然，不同的任务对文本输出的一致性有不同的要求。比如对生成结果要求不那么严格的任务，对Yfull和Yearly的一致性要求就没有那么高(可以生成更多种类的报表)。

因此，作者在文中也给出了两种不同的公式，可根据实际情况选用:

在实践中，本文设置了一个局部标记置信度来检查它对整个生成序列的影响。

在模型解码过程中，会计算每一层的置信度C，并与“提前退出”的阈值λ进行比较。如果C大于λ，模型会“提前退出”。

那么，这样的模型实际测试效果如何呢？

翻译质量保证任务表现良好。

论文在CNN/DM、WMT和SQuAD数据集上进行了测试。

其中，CNN/DM是新闻文章的数据集，需要输出几句话来概括文章的结果；WMT15 EN-FR是机器翻译数据集，主要是法英句子翻译的结果。开卷班底1.1是一个基于维基百科问题的问答数据集。

根据Tal Schuster的介绍，在保持相同性能的情况下，CALM使用的解码器层数平均减少了3倍。

对于这篇论文，有网友表示赞同:模型真的不需要一直“深入思考很久”，有时候几层就能推导出正确答案。

作者认为，这种加速解码的思想适用于任何Seq2seq型号。

作者简介

这篇论文有八位作者，一位来自Google，另一位来自MIT CSAIL，其中有两位负责人，Tal Schuster和Adam Fisch。

Tal Schuster博士毕业于麻省理工学院，现任谷歌高级研究员。他的研究兴趣是机器学习模型的健壮性、可靠性和效率改进。

[/S2/]亚当·菲舍尔(Adam Fisch)，麻省理工学院博士生，普林斯顿大学本科毕业。他的研究兴趣是量化机器学习、小样本学习等中的不确定性。

对大语言模型推理加速感兴趣的小伙伴可以戳论文地址了解详情。

论文地址:

https://arxiv.org/abs/2207.07061

参考链接:

https://twitter.com/TalSchuster/status/1547966142412513282

转载请注明原文地址:https://juke.outofmemory.cn/read/1756786.html

00 生成海报

无用

新方法

推理

模型

性能

连续十天晒背30分钟能祛湿吗（晒背去寒湿的最佳时间）

上一篇2022-9-23

大家读《左传》｜晋楚邲之战 2

下一篇2022-9-23

最新回复(0)

教大模型自己跳过“无用”层，推理速度 × 3 性能不变，谷歌 MIT 这个新方法火了

无用

新方法

推理

模型

性能

连续十天晒背30分钟能祛湿吗（晒背去寒湿的最佳时间）

大家读《左传》 ｜晋楚邲之战 2

大家读《左传》｜晋楚邲之战 2