AI想象力恐怖如斯:看一眼人体局部,就能脑补5种全身姿势
AI拥有“想象力”是一种怎样的体验?
如左上角只给了一个凳子的座位部分,AI很快就组成了一个完整的三维椅子模型:
同样,当面对甲方要求经典的“用PS把大象转过来”时,我们得到了这样一张车屁股的照片:
AI还可以根据现有的局部信息快速推断出缺失的部分,最终构建出3D汽车模型。
这项研究成果来自深圳大学黄辉教授领导的研究团队,其论文最近被计算机视觉领域的顶级会议CVPR 2022接受。论文第一作者是深圳大学视觉计算中心研究助理闫星光。
接下来,我们来看看局部照片是如何一步步转化为整体模型的。
一个完整的三维模型的形状通常是通过相机检测和表面采样获得的,而局部照片意味着只能从物体的可见部分获得信息,导致采样密度不同和缺失。
然后,需要通过观察已有数据中的非局部提示,利用各种形式的先验知识来推断缺失部分。
所以作者首先提出了矢量量化的一个深度隐函数,VQDIF。
这是一种三维表示方法,可以将表面形状编码成离散的二进制序列,每个序列代表一个局部特征的位置和内容,是这样一个过程:
其次,作者提出了一个基于Transformer的自回归模型ShapeFormer,它根据上一步生成的二元序列,依次预测完整序列的分布。
这里的变形金刚是2014年的一个模型,可以使用注意机制来提高模型的训练速度。它一经问世,就在自然语言理解(NLP)领域取得了突破性进展,近年来也有不少跨界研究将其应用于计算机视觉(CV)领域。
通过对上一步预测的分布进行采样,可以得到不同的预测结果。
除了像桌椅这样的平面形状,AI在训练中还学会了对称、空心、填充等很多技巧,所以也可以生成像茶壶或者水壶这样的三维模型。
作者还在论文中指出,与许多现有的3D图像生成方法相比,ShapeFormer生成的结果可以保留原始图像的更多细节。
同时,这种AI的“想象力”也极其丰富。比如,面对人体姿态不确定性很大的生成目标,作者从完整的模型中随机选取一小部分,而AI在保持观察身体部位姿态的同时生成多种可能的姿态。
由来自杜南的见习记者杨博文撰写