明源自奥菲斯
qubit |微信官方账号QbitAI
现在,让机械狗自己滚一个小时它就能学会走路了!
步态看起来相当得体:
一个能扛大棒的疯子:
即使我摔了个四仰八叉,我还是翻了个身,重新站了起来:
所以,训练机械狗真的和普通的训狗没什么区别。
这是UC Berkeley大学带来的最新成果,让机器人直接在实际环境中训练和学习,而不是依赖于模拟器。
使用这种方法,研究人员在短时间内训练了四个机器人。
比如一开始1小时学会走路的机械狗;
还有2个机械臂,经过8-10个小时的实战抓取,接近人类水平;
还有一个有计算机视觉的小机器人,可以自己摸索2个小时滚动到指定位置。
这项研究是由Pieter Abbeel等人提出的。Pieter Abbeel是吴恩达第一位博士生,他刚刚获得了2021年ACM计算奖。
目前,该方法的所有软件基础设施都已经开源。
一个叫“空乡愁”的算法
这种方法的流水线大致可以分为四个步骤:
第一步是将机器人置于真实环境中收集数据。
第二步是将这些数据传输到重放缓冲区。这一步就是利用历史数据进行训练,“总结经验”,高效利用收集到的样本。
第三步,World Model会借鉴已有的经验,然后“脑补”策略。
第四,采用行动者评判算法来提高策略梯度法的性能。
然后将提取出来的方法在机器人身上重复使用,最终达到一种“自己学”的感觉。
具体来说,这里的核心环节是世界模型。
世界模型(World Models)是DAVID HA等人在2018年提出的一种快速无监督学习方法,获得了NIPS 2018的口头陈述。
它的核心思想是,人类基于已有的经验形成了一个心智世界模型,我们的决策和行动都是基于这个内在模型。
比如人类在打棒球的时候,反应速度比视觉信息到达大脑的速度要快得多,所以在这种情况下之所以能正确回球,是因为大脑做出了本能的预测。
此前,基于世界模型的“脑补”学习方法,Google提出了Dreamer,一种可扩展的强化学习方法。
这次提出的方法就是基于此,被称为空想家。
(好像可以叫空乡愁?)
具体来说,世界模型是一个代理模型。
它包括一个视觉感知组件,可以将看到的图像压缩成一个低维表示向量作为模型输入。
同时还有记忆组件,可以根据历史信息预测未来的表征向量。
最后,它还包括一个决策组件,可以根据视知觉组件和决策组件的表示向量来决定采取什么样的行动。
现在,让我们回到这次加州大学伯克利分校学者提出的方法。
不难发现,世界模型学习部分的逻辑是一个经验积累的过程,而行为学习部分是一个动作输出的过程。
本文提出的方法主要解决了机器人训练中的两个问题:
效率和准确性。
一般来说,训练机器人的常规方式是通过反复实验,加强学习,调整机器人的操作。
但是这种方法往往需要大量的测试才能达到好的效果。
不仅效率低,而且培训成本也不低。
后来很多人提出在模拟器中训练机器人可以提高效率,降低成本。
但笔者认为模拟器训练法在精度上的表现还不够好,只有真实环境才能让机器人达到最佳效果。
从结果来看,在训练机器狗的过程中,机器狗只需要10分钟就能适应自己的行为。
与SAC方法相比,效果明显提高。
在机械臂训练过程中,这种新方法还克服了视觉定位和稀疏奖励的挑战,几个小时内的训练效果明显优于其他方法。
研究团队
值得一提的是,这次带来新成果的研究团队成员也非常了不起。
其中,彼得·阿比尔是吴恩达的一个开创性的弟子。
他现在是加州大学伯克利分校电气工程和计算机科学教授,伯克利机器人学习实验室主任,伯克利人工智能研究所联合主任。他曾经加入过OpenAI。
不久前,他还获得了2021年ACM计算奖,以表彰他对机器人学习的贡献。
同时,他还是人工智能机器人公司Covariant的联合创始人。
另一个肯·戈德堡也是人工智能领域的顶级专家。
他现在是加州大学伯克利分校的工程学教授。研究方向为强化学习、人机交互等。
2005年当选IEEE院士。
同时,戈德堡还是一名艺术家,也是加州大学伯克利分校艺术、技术和文化研讨会的创始人。
此外,菲利普·吴、亚历杭德罗·埃斯孔特拉和达尼亚尔·哈夫纳都在一起工作。
其中Philipp Wu只是加州大学伯克利分校的一名大四学生。
还有一点
在观看机械狗训练的视频时,我们发现研究人员使用的是Unitree机械狗。
这个品牌来自中国企业宇数科技,之前上春晚的机器人小牛也出自其家。
而且最近玉树机器狗集体Go1测试的视频曝光,在国外引起了一波火。
论文地址:
https://danijar.com/project/daydreamer/
参考链接:
https://worldmodels.github.io/