新的图像生成之王扩散模型刚刚诞生。
其理论和实践仍在野蛮生长。
来自NVIDIA StyleGAN的原始类的作者站起来,试图给出一些设计扩散模型的技巧和指南。因此,提高了模型的质量和效率,例如将现有ImageNet-64模型的FID分数从2.07提高到1.55,接近SOTA的分数。
他们的工作成果很快得到了行业领导者的认可。
研究员DeepMind称赞:这篇论文简直是训练扩散模型的人必看的妥妥的金矿。
我们可以从以下几个方面来看StyleGAN作者对扩散模型的三个贡献:
用通用框架表示扩散模型
在这一部分中,作者的贡献主要是从实践的角度观察模型背后的理论,重点关注在训练和采样阶段出现的“有形”的对象和算法,从而更好地理解组件是如何连接在一起的,以及它们在整个系统的设计中可以使用的自由度。
本质就是下表:
该表给出了三个模型在其框架内的某些变量的公式。
(这三种方法(VP,VE,iDDPM+ DDIM)不仅应用广泛,达到SOTA性能,而且来自不同的理论基础。)
这些公式使得组件原则上没有隐含的依赖关系,在合理的范围内选择任意一个单一的公共性就可以得到一个功能模型。
随机抽样和确定性抽样的改进
作者的第二组贡献涉及扩散模型合成图像的采样过程。
他们确定了最佳的时间离散化,将高阶Runge-Kutta方法应用于采样过程,在三个预训练模型上评估了不同的方法,并分析了采样过程中随机性的有用性。
因此,合成过程中所需的采样步骤的数量显著减少,并且改进的采样器可以用作几种广泛使用的扩散模型的直接替代物。
先看确定性采样。使用的三个检验模型还是上面三个,来自不同的理论框架和模型家族。
首先,作者使用原始采样器测量这些模型的基线结果,然后使用表1中的公式将这些采样方法引入到它们的统一框架中,然后对它们进行改进。
然后,根据在50,000个生成的图像和所有可用的真实图像之间计算的FID分数来评估质量。
如您所见,最初的确定性采样器以蓝色显示,在其统一框架(橙色)中重新实现这些方法将产生类似或更好的结果。
作者解释说,这些差异是由原始实现中的一些疏忽以及作者对离散噪声水平的更仔细处理造成的。
确定性采样虽然有很多优点,但是与每一步都给图像注入新噪声的随机采样相比,它的输出图像质量确实要差一些。
但是,笔者很好奇。假设ODE(常微分方程)和SDE(随机微分方程)理论上恢复同一个分布,随机性的作用是什么?
在这里,他们提出了一种新的随机采样器,它将现有的高阶ODE积分器与显式的“类似朗之万的‘搅动’”相结合,以添加和去除噪声。
最终,模型的性能得到了显著的提高,仅通过改进采样器,ImageNet-64模型的原始FID评分就可以从2.07提高到1.55,接近SOTA水平。
预处理和培训
作者的第三个贡献主要是分数建模神经网络的训练。
这部分继续依赖于常用的网络架构(DDPM,NCSN)。从原理上分析了扩散模型设置中网络的输入、输出和损失函数,得出了改善训练动态的最佳做法。
例如,神经网络通过使用依赖于σ(噪声水平)的跳转连接进行预处理,以便它可以估计y(信号)或n(噪声),或者介于两者之间的值。
下表显示了通过蔡颖模型的不同训练配置获得的FID分数。
作者从基线训练配置出发,使用确定性采样器(称为配置A),重新调整基本超参数(配置B),通过去除最低分辨率层,将最高分辨率层的容量增加一倍(配置C),提高模型的表达能力。
然后用预处理(配置D)替换原来的{cin,cout,cnoise,cskip}选项。这使得结果基本保持不变,但VE在64×64的分辨率下有了很大的提高。这种预处理方法的主要优点不是改进FID本身,而是使训练更加鲁棒,从而将重点转移到重新设计损失函数上,而不会产生不利影响。
VP和VE的区别仅在于Fθ的架构(配置E和F)。
此外,作者建议改进训练时的噪声级分布,并发现与GANs共同使用的非泄漏增强操作也有利于扩散模型。
比如从上表我们可以看到,有条件和无条件CIFAR-10的最新FID分别达到了1.79和1.97,打破了之前的记录(1.85和2.1046)。
更多详情请查看原文:
https://arxiv.org/abs/2206.00364
参考链接:
https://twitter.com/SEDIELM/status/1532466208435494930? s = 12 amp;t=Uzg6OWwe5AgXHSBrzlnFrg