Imagen加入「命中你指的地方」的能力会变得多强?
只需上传3-5张指定物体的照片,并用文字描述你想要生成的背景、动作或表情,指定物体就能“闪”进你想要的场景,动作表情都栩栩如生。
不仅是动物,其他物品如太阳镜、书包和花瓶也可以制成几乎是真正的成品:
属于那种不会被别人看到的朋友。(手动狗头)
这种神奇的文本图像生成模型被命名为DreamBooth,是谷歌的最新研究成果。在Imagen的基础上进行了调整,一经发布便在推特上引起了热议。
有网友调侃:这简直就是最先进的梗图生成器。
目前相关研究论文已上传至arXiv。
几张照片就能“环游世界”
在介绍原理之前,我们先来看看DreamBooth的各种能力,包括变换场景、分配动作和表情服装、变换风格等。
如果你是一个“铲屎官”,有了这种模式的“换景能力”,你就可以足不出户的看到你的狗出家门,比如在凡尔赛宫,富士山脚下。
△光线也是自然的。
不仅如此,宠物的动作和表情也可以随意指定。确实“一句话p图”的细节很到位。
除了以上的“基础练习”,DreamBooth甚至可以改变各种照片风格,也就是所谓的“添加滤镜”。
比如各种“世界名画”画风,各种视角的狗,不要太艺术化:
至于装修他们?各种cosplay道具也是小菜一碟。
此外,无论是改变颜色:
就更神奇了。这个人工智能可以改变物种。
那么,如此有趣的效果背后的原理是什么呢?
在输入中添加一个“特殊标识符”。
研究人员做了一个比较。与DALL-E2、Imagen等其他大规模文本图像模型相比。,只有DreamBooth方法可以忠实地还原输入图像。
如下图所示,输入三个右边表盘有黄色“3”的小闹钟,其中DreamBooth生成的图像完美保留了时钟的所有细节,但DALL-E2和Imagen几次生成的时钟与原时钟“有些不同”。
△李悝jy和李鬼
而这正是DreamBooth最大的特色——个性化表达。
用户可以随意给出一个物体的3-5张照片,他们可以在不同的背景下获得该物体的新颖表现,同时保留其关键特征。
当然,作者也说了,这种方法并不局限于某个型号,如果对Dall E2进行调整,也可以实现这种功能。
具体来说,DreamBooth采用了给对象添加“特殊标识符”的方法。
也就是说,图像生成模型接收到的原始指令只是一种物体,比如【猫】、【狗】等。,但是现在DreamBooth会在这类物体前面加一个特殊的标识符,它就变成了[V][物体类别]。
下图就是一个例子。以用户上传的三张狗照片和对应的类名(如“狗”)作为输入信息,得到一个微调的文本-图像扩散模型。
这种扩散模型用“a [V] dog”指代用户上传图片中的狗,然后将其带入文字描述中生成特定的图像,其中[V]是特殊的标识符。
至于为什么不用【V】来指代整个【特定对象】?
作者认为,受限于输入照片的数量,模型无法很好地学习照片中物体的整体特征,反而可能存在过拟合。
所以这里采用微调的思路。总体来说,还是基于AI已经学习到的【物体类别】特征,再用【V】学习到的特殊特征进行修饰。
以一只白狗的产生为例。在这里,模型会通过[V]学习狗的颜色(白色)、体型等个性化细节,加上模型在[狗]这个大类中学习到的狗的共性,可以生成更多合理又不失个性的白狗照片。
为了训练这种微调的文本-图像扩散模型,研究人员首先根据给定的文本描述生成一个低分辨率图像,然后在生成的图像中狗的图像是随机的。
然后,应用超分辨率扩散模型将随机图像替换为用户上传的特定狗。
研究团队
DreamBooth的研究团队来自谷歌,第一作者是Nataniel Ruiz。
Nataniel Ruiz是波士顿大学图像与视频计算组的四年级博士生,目前在谷歌实习。主要研究方向为模型生成、图像翻译、对抗攻击、人脸分析和仿真。
论文的链接附在文末。感兴趣的朋友快来看看吧~
论文地址:
https://arxiv.org/abs/2208.12242
参考链接:
[1]https://dreambooth.github.io/
[2]https://Twitter . com/natanielruizg/status/1563166568195821569
[3]https://natanielruiz.github.io/