仅做两项修改,苹果就让 StyleGANv2 获得了 3D 生成能力

小时代简溪2022-09-24  22

仅做两项修改,苹果就让 StyleGANv2 获得了 3D 生成能力

机器心脏报告

机器之心编辑部

来自苹果公司和伊利诺伊大学厄巴纳-香槟分校的研究人员发现,只需要两次修改,就可以让2D·甘获得3D生成能力。

如何将现有的2D GAN制作成3D级别?这是一个有趣又实用的问题。

为了解决这个问题,苹果公司和伊利诺伊大学香槟分校的研究人员试图尽可能少地修改经典GAN styleganv 2。研究发现,只有两个修改是绝对必要的:1)多平面图像风格生成器的一个分支,它生成一组以深度为条件的阿尔法图像;2)基于位置和姿态的鉴别器。

地址:https://arxiv.org/abs/2207.10642

在本研究中,生成的输出结果被称为“生成的多平面图像(GMPI)”。GMPI方法不仅渲染质量高,而且保证了视图的一致性。更重要的是,阿尔法图的数量可以动态调整,在训练和推理阶段都可以改变,从而缓解了内存问题,不到半天就能以1024 ^ 2的分辨率快速训练出GMPI。

我们先来看看GMPI方法在三个具有挑战性的常见高分辨率数据集(FFHQ、AFHQv2和MetFaces)上的效果:

阿尔法分支使用中间表示来生成多平面图像表示M,除了单个图像之外,该多平面图像表示M还包含不同深度的阿尔法图。

更具体地说,这项研究为StyleGANv2开发了一个新的生成器分支,它生成一组具有平行正面的alpha贴图,类似于性质上的MPI。本研究首次证明了MPI可以作为无条件三维感知生成模型的场景表示。这个新的alpha分支是从零开始训练的,同时微调传统的StyleGANv2生成器和鉴别器。生成的alpha贴图与StyleGANv2的单个标准图像输出相结合,以呈现端到端可区分的多平面样式。该研究实现了不同视图的三维感知生成,保证了视图的一致性。虽然alpha贴图处理遮挡的能力有限,但是渲染非常有效。此外,阿尔法映射的数量可以动态调整,甚至在训练和推理过程中可以不同,从而减轻内存负担。

研究发现,为了实现三维感知,根据具体的位姿调整鉴别器是完全必要的。另一方面,需要根据alpha贴图的深度来调整模型。在这项研究中,原始的StyleGANv2网络只是通过添加额外的alpha分支进行了修改,如下图3所示。

为了获得显示预期3D结构的alpha映射,研究发现StyleGANv2需要调整两次:(a)a)MPI中任何平面的alpha映射预测必须基于平面的深度或可学习令牌;(b)鉴别器必须基于相机姿态。虽然这两个调整看起来很直观,但令人惊讶的是,它们对于3D感知感应偏差来说已经足够了。

改进的alpha贴图的另一个归纳偏差是带阴影的3D渲染。虽然有用,但这项研究发现,这种感应偏差对于获得3D感知并不是必要的。此外,研究人员还发现,一些经典的2D甘评价指标可能会导致误导性结果。

实验

在这项研究中,在三个数据集(FFHQ、AFHQv2和MetFaces)上分析了不同分辨率的GMPI。

下面的表1和表2提供了速度比较和定量评估的结果。通过更快的训练,GMPI在256±2图像上取得了比SOTA模型更好的性能,并可以生成高达1024±2的高分辨率结果,这是大多数基线模型无法生成的。

为了分析该方法中关键设计的效果,本研究中进行了消融实验,结果如下表3、图4和图5所示。

感兴趣的读者可以阅读原文,了解更多的研究细节。

剧终

投稿或寻求报道:content@jiqizhixin.com

转载请注明原文地址:https://juke.outofmemory.cn/read/1759134.html

最新回复(0)