机器之心重印
来源:知乎
作者:蒋
本文以VQ-VAE作为轨迹生成的基本模型,最终得到一种新的算法TAP(轨迹自动编码规划器),能够高效地进行采样和规划,在高维控制任务中的性能远优于其他基于模型的方法。
在上一篇文章中,我们介绍了基于变换器和扩散模型的序列建模在强化学习中的应用,特别是在离线连续控制领域。其中,轨迹转换器(TT)和扩散器(Diffusser)是基于模型的规划算法,在轨迹预测方面表现出非常高的准确性和灵活性,但决策延迟相对较高。特别是TT将每个维度独立离散为序列中的一个符号,使得整个序列非常长,序列生成的耗时会随着状态和动作维度的增加而迅速增加。
为了使轨迹生成模型达到实用的决策速度,我们在与Diffusser(重叠但应该在后面)并行的时候,启动了高效轨迹生成与决策的项目。我们首先想到的是用连续空空间的Transformer+混合高斯来拟合整个轨迹分布,而不是离散分布。虽然不排除实现的问题,但在这种思路下,我们无法得到一个稳定的生成模型。然后我们尝试了变分自动编码器(VAE),并取得了一些突破。然而,VAE的重建精度不是特别理想,这使得下游控制性能与TT大不相同。经过多次迭代,我们最终选择VQ-VAE作为轨迹生成的基本模型,最终得到了一种能够高效采样和规划的新算法,其在高维控制任务中的性能远远优于其他基于模型的方法。我们称之为轨迹自动编码规划器(TAP)。
项目主页:https://sites.google.com/view/latentplan
主页:https://arxiv.org/abs/2208.10291
规划效率和高维性能
在单个GPU下,TAP可以轻松进行在线决策,决策效率达到20Hz,在低维D4RL任务中的决策延迟仅为TT的1%左右。更重要的是,随着任务状态和行动维度D的增加,TT的理论决策延迟会增加到三次方,扩散器理论上会线性增加,而TAP的决策速度不受维度影响。在agent的决策性能方面,随着行动维度的增加,TAP的性能较其他方法有所提高,尤其是与基于模型的方法(如TT)相比。
决策延迟对决策和控制任务的重要性非常明显。虽然像MuZero这样的算法在仿真环境中表现不错,但是在现实世界中面对需要实时快速响应的任务时,过多的决策延迟会成为其部署的一大难点。另外,在拥有仿真环境的前提下,决策速度慢也会导致同类算法测试成本高,应用于在线强化学习的成本也会比较高。
此外,我们认为序列生成的建模方法可以平滑地扩展到更高维度的任务,这也是TAP非常重要的贡献。现实中,我们希望强化学习最终能解决的问题,其实大部分都有更高的状态和行动维度。例如,对于自动驾驶,即使经过各种感知水平的预处理,每个传感器的输入也不可能小于100。复杂的机器人控制往往运动高空。人类所有关节的自由度约为240,对应至少240维的运动空。像人一样灵活的机器人也需要同样的高维运动空。
维度递增的四组任务
随着任务维度的增加,决策和相关模型绩效的变化
方法概述
首先,训练VQ-VAE的自动编码器,它在两个方面不同于原来的VQ-VAE。第一个区别是编码器和解码器都是基于因果变换器,而不是CNN。第二个区别是,我们学习了一个条件概率分布,所有要建模的可能轨迹都必须从当前状态开始。自编码器学习来自当前状态的轨道和潜在代码之间的双向映射。这些隐藏代码像原始轨道一样按时间顺序排列,每个隐藏代码将与实际轨道相对应。由于我们使用了因果变换器,时间秩较低的隐码(如)不会将信息传递给秩较高的序列(如),这使得TAP通过前N个隐码解码出长度为NL的轨迹,在后续用它进行规划时非常有用。
然后,我们将使用另一个GPT-2变换器来模拟这些隐写术的条件概率分布:
在做决策时,我们可以通过优化隐变量空,而不是优化原来的动作空,找到最佳的未来轨迹。一个非常简单但有效的方法是直接从隐藏代码的分布中采样,然后选择性能最好的轨迹,如下图所示:
在选择最优轨迹时,客观评分会同时考虑轨迹的预期收益(奖励加上最后一步的估值)和轨迹本身的可行性或概率。如下式所示,其中它是一个远大于最高收益的数,当一个轨迹的概率高于一个阈值时,判断这个轨迹的标准将是它的预期收益(用红色突出显示),否则这个轨迹本身的概率将是占优势的部分(用蓝色突出显示)。也就是说TAP会在大于阈值的轨迹中选择期望收益最高的一个。
虽然在样本数量足够大的情况下,当预测序列较短时,直接采样可以有效,但在限制样本数量和规划所需总时间的前提下,使用更好的优化器仍然会带来更好的性能。下面的两个运动图像显示了当要预测接下来的144步时,由直接采样和波束搜索生成的轨迹之间的差异。这些曲目按照最终的目标分数排序,最上面和最前面的曲目分数越高,后面堆叠的曲目分数越低。此外,分数低的曲目透明度也会较低。在图中我们可以看到,直接采样生成的轨迹很多动态都是不稳定的,不符合物理规律的,尤其是背景中较轻的轨迹几乎都是浮动的。这些都是低概率的轨迹,在最终的选择中会被淘汰。前排的赛道看起来更有动感,但是相应的表现就差了,好像要掉了。另一方面,波束搜索在扩展下一个隐变量时会动态考虑轨迹的概率,使概率低的分支提前终止,这样产生的候选轨迹会集中在性能更好、可能性更高的轨迹周围。
体操运动控制
在高维任务上,TAP取得了远优于其他基于模型方法的性能,也优于常见的无模型方法。实际上,还有两个未解决的问题。一是为什么之前基于模型的方法在这些高维离线强化学习任务中表现不佳,二是为什么TAP在这些任务中表现优于很多无模型方法。我们的一个假设是,在高维问题上优化策略,防止策略偏离行为是非常困难的。在学习模型的时候,模型本身的误差可能会放大这个难度。TAP将优化空移动到一个小的离散隐变量空,使得整个优化过程更加健壮。
灵巧的机械手控制
一些切片检查
对于TAP中的许多设计,我们也对健身房运动控制任务进行了一系列切片研究。首先,它是实际对应于每个隐藏代码的轨迹的步数(黄色直方图)。已经证明,使一个隐藏变量对应于多步状态转移不仅具有计算优势,而且提高了最终模型的性能。通过调整触发低概率轨迹惩罚的搜索目标函数的阈值(红色直方图),我们还确认了目标函数的两个部分确实对模型的最终性能有帮助。还有一点,规划层位(蓝色直方图)的数量对模型的性能影响不大。即使在部署后的搜索中只部署一个隐藏变量,代理的性能也只会下降10%左右。
最后,我们尝试了直接采样情况下TAP的性能(绿色直方图)。注意,这里采样的样本数是2048,而上面的动态图只有256,上面的动态图生成了接下来144步的计划,但实际上我们的基本模型命令了15步的计划。结论如果样本数量足够,规划路径不长,直接采样的性能可以与波束搜索的性能相当。然而,这是从隐变量的学习条件分布中采样的情况。如果直接从隐藏代码中等概率采样,最终还是会比完全TAP模型差很多。
切片研究的结果
掌握“声纹识别技术”:前20小时给我,后9980小时给我.../p >“声纹识别:从理论到编程实践”中文课程上线,由Google声纹团队负责人王泉博士主讲。
视频内容为12小时。重点介绍了基于深度学习的声纹识别系统,包含了大量学术界和工业界的最新研究成果。
同时,课程配有32个课后小测验、10个编程练习和10个大作业,保证你在课程结束时可以自己从零开始构建一个完整的声纹识别系统。
课程仍在第一周折扣。欢迎对声纹感兴趣的同学一起学习。