想象力恐怖如斯：看一眼人体局部，就能脑补种全身姿势

AI想象力恐怖如斯：看一眼人体局部，就能脑补5种全身姿势

AI拥有“想象力”是一种怎样的体验？

如左上角只给了一个凳子的座位部分，AI很快就组成了一个完整的三维椅子模型:

同样，当面对甲方要求经典的“用PS把大象转过来”时，我们得到了这样一张车屁股的照片:

AI还可以根据现有的局部信息快速推断出缺失的部分，最终构建出3D汽车模型。

这项研究成果来自深圳大学黄辉教授领导的研究团队，其论文最近被计算机视觉领域的顶级会议CVPR 2022接受。论文第一作者是深圳大学视觉计算中心研究助理闫星光。

接下来，我们来看看局部照片是如何一步步转化为整体模型的。

一个完整的三维模型的形状通常是通过相机检测和表面采样获得的，而局部照片意味着只能从物体的可见部分获得信息，导致采样密度不同和缺失。

然后，需要通过观察已有数据中的非局部提示，利用各种形式的先验知识来推断缺失部分。

所以作者首先提出了矢量量化的一个深度隐函数，VQDIF。

这是一种三维表示方法，可以将表面形状编码成离散的二进制序列，每个序列代表一个局部特征的位置和内容，是这样一个过程:

其次，作者提出了一个基于Transformer的自回归模型ShapeFormer，它根据上一步生成的二元序列，依次预测完整序列的分布。

这里的变形金刚是2014年的一个模型，可以使用注意机制来提高模型的训练速度。它一经问世，就在自然语言理解(NLP)领域取得了突破性进展，近年来也有不少跨界研究将其应用于计算机视觉(CV)领域。

通过对上一步预测的分布进行采样，可以得到不同的预测结果。

除了像桌椅这样的平面形状，AI在训练中还学会了对称、空心、填充等很多技巧，所以也可以生成像茶壶或者水壶这样的三维模型。

作者还在论文中指出，与许多现有的3D图像生成方法相比，ShapeFormer生成的结果可以保留原始图像的更多细节。

同时，这种AI的“想象力”也极其丰富。比如，面对人体姿态不确定性很大的生成目标，作者从完整的模型中随机选取一小部分，而AI在保持观察身体部位姿态的同时生成多种可能的姿态。

由来自杜南的见习记者杨博文撰写

欢迎分享，转载请注明来源：聚客百科