李飞飞机器人

李飞飞机器人,第1张

李飞飞团队将ViT用在机器人身上,规划推理最高提速512倍

本文为网易新闻网易特色内容激励计划签约账号[qubit]原创内容。未经账号授权,禁止随意转载。
来自奥菲斯的杨静
qubit |微信官方账号QbitAI

人类的预测力+ViT会产生什么样的化学反应?

使机器人的动作规划能力快速准确。

这是李菲菲团队的最新研究——mask vit,通过MVM对Transformer进行预训练,掩蔽视觉建模,从而建立视频预测模型。

结果表明,MaskViT不仅可以生成256*256的视频,而且机器人动作规划的推理速度提高了512倍。

让我们看看这是什么样的研究。

从人类身上寻找灵感

神经科学领域的研究表明,人类的认知和感知能力是由一种预测机制支持的。

这个世界的预测模型可以用来模拟、评估和选择不同的可能行动。

对于人类来说,这个过程快速而准确。

如果机器人能被赋予类似的预测能力。然后,他们可以在复杂和动态的环境中快速计划和执行各种任务。

比如通过可视化模型进行预测控制可能是一种方式,但也需要更高的计算能力和精度。

于是,团队想到了最近的ViT架构,以及以何MAE为代表的基于MVM和掩蔽视觉建模的自监督预训练表示。

然而,实现它仍然有许多技术挑战。

一方面,全局注意机制的复杂度与输入序列长度的平方成正比,导致视频处理的成本很高。

另一方面,视频预测任务和自回归掩模视觉预训练之间存在不一致性。在实践中,模型必须从开始就预测完整的未来帧序列,这导致了较差的视频预测质量。

基于这一背景,李菲菲团队提出了mask vit-通过掩蔽视觉建模预训练Transformer,从而建立视频预测模型。

有两个具体的设计决策。

首先,为了提高记忆和训练的效率,使用了两种类型的窗口注意:空交互注意和时间空注意

第二,在训练过程中,掩模的标记比率是可变的。

在推理阶段,通过迭代细化生成视频,其中根据掩模调度函数逐渐降低掩模率。

实验结果

研究小组在三个不同的数据集和四个不同的指标中评估了MaskViT。

结果表明,与之前的先进方法相比,MaskViT表现出了更好的性能,可以生成分辨率为256 × 256的视频。

烧蚀实验也在BAIR进行。

随后,团队还演示了真实机器人使用MaskViT进行实时规划的效果。

推理速度最高可提升512倍。

研究人员表示,这项工作表明,我们可以通过使用具有最少领域知识的面具视觉建模的通用框架,赋予智能主体强大的预测模型。

但同时,它也有一定的局限性。

比如每一帧量化时都会出现闪烁伪像,尤其是在背景静态的RoboNet视频中。

如果要扩大视频预测的规模,还是很有挑战性的,尤其是在摄像机运动很多的场景下。

未来,他们将探索将这种视频预测方法集成到更复杂的规划算法中。

值得一提的是,今年5月,何明凯的团队提出了视频版的MAE,发现最佳掩蔽率高达90%。

论文链接:
https://arxiv.org/ABS/2206.11894
项目链接:
https://maskedvit . github . io/
何明凯论文:
https

欢迎分享,转载请注明来源:聚客百科

原文地址: https://juke.outofmemory.cn/life/1379989.html

()
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-08-28
下一篇 2022-08-28

发表评论

登录后才能评论

评论列表(0条)

保存