教大模型自己跳过“无用”层,推理速度 × 3 性能不变,谷歌 MIT 这个新方法火了

教大模型自己跳过“无用”层,推理速度 × 3 性能不变,谷歌 MIT 这个新方法火了,第1张

教大模型自己跳过“无用”层,推理速度 × 3 性能不变,谷歌 MIT 这个新方法火了

大语言模型很酷,但是推理速度太慢?

而且,如果加大模型体积,推理效果也不一定比以前好。

为了解决这个问题,Google MIT的研究人员提出了一个新的框架CALM,让它自己决定计算量。

如果冷静意识到有些层是“可有可无”的,它会在计算中跳过这些层。

该论文被发布到网上后,立刻火了一波:

有网友说,我们就是需要这样一个更智能、适应性更强的模型。显然,CALM的解码器已经做到了:

用中间层直接输出结果。

CALM代表自信自适应语言建模,即自信自适应大语言模型。

该模型基于变压器架构。为了加快其计算速度,研究人员提出了一种叫做“提前退出”的方法,该方法允许模型根据不同的输入动态决定使用多少层网络进行计算。

也就是说,在计算的过程中,模型不需要计算每一层再输出结果,而是可以利用中间层的特性直接输出token,从而减少模型的计算量。

那么,模型是如何确定“退出”时机的呢?

这需要训练模型学会自己判断。

其中,Yfull是标准模型的输出结果,Yearly是模型“提前退出”时的输出结果。为了更好地完成年度工作,有必要尽可能地使之与Yfull保持一致。

当然,不同的任务对文本输出的一致性有不同的要求。比如对生成结果要求不那么严格的任务,对Yfull和Yearly的一致性要求就没有那么高(可以生成更多种类的报表)。

因此,作者在文中也给出了两种不同的公式,可根据实际情况选用:

在实践中,本文设置了一个局部标记置信度来检查它对整个生成序列的影响。

在模型解码过程中,会计算每一层的置信度C,并与“提前退出”的阈值λ进行比较。如果C大于λ,模型会“提前退出”。

那么,这样的模型实际测试效果如何呢?

翻译质量保证任务表现良好。

论文在CNN/DM、WMT和SQuAD数据集上进行了测试。

其中,CNN/DM是新闻文章的数据集,需要输出几句话来概括文章的结果;WMT15 EN-FR是机器翻译数据集,主要是法英句子翻译的结果。开卷班底1.1是一个基于维基百科问题的问答数据集。

根据Tal Schuster的介绍,在保持相同性能的情况下,CALM使用的解码器层数平均减少了3倍

对于这篇论文,有网友表示赞同:模型真的不需要一直“深入思考很久”,有时候几层就能推导出正确答案。

作者认为,这种加速解码的思想适用于任何Seq2seq型号。

作者简介

这篇论文有八位作者,一位来自Google,另一位来自MIT CSAIL,其中有两位负责人,Tal Schuster和Adam Fisch。

Tal Schuster博士毕业于麻省理工学院,现任谷歌高级研究员。他的研究兴趣是机器学习模型的健壮性、可靠性和效率改进。

[/S2/]亚当·菲舍尔(Adam Fisch),麻省理工学院博士生,普林斯顿大学本科毕业。他的研究兴趣是量化机器学习、小样本学习等中的不确定性。

对大语言模型推理加速感兴趣的小伙伴可以戳论文地址了解详情。

论文地址:

https://arxiv.org/abs/2207.07061

参考链接:

https://twitter.com/TalSchuster/status/1547966142412513282

欢迎分享,转载请注明来源:聚客百科

原文地址: https://juke.outofmemory.cn/life/1756786.html

()
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-09-23
下一篇 2022-09-23

发表评论

登录后才能评论

评论列表(0条)

保存