谷歌用新 AI 超越自己:让 Imagen 能够指定生成对象,风格还能随意转换

快递公司查询2022-09-26  6

谷歌用新 AI 超越自己:让 Imagen 能够指定生成对象,风格还能随意转换

Imagen加入「命中你指的地方」的能力会变得多强?

只需上传3-5张指定物体的照片,并用文字描述你想要生成的背景、动作或表情,指定物体就能“闪”进你想要的场景,动作表情都栩栩如生。

不仅是动物,其他物品如太阳镜、书包和花瓶也可以制成几乎是真正的成品:

属于那种不会被别人看到的朋友。(手动狗头)

这种神奇的文本图像生成模型被命名为DreamBooth,是谷歌的最新研究成果。在Imagen的基础上进行了调整,一经发布便在推特上引起了热议。

有网友调侃:这简直就是最先进的梗图生成器。

目前相关研究论文已上传至arXiv。

几张照片就能“环游世界”

在介绍原理之前,我们先来看看DreamBooth的各种能力,包括变换场景、分配动作和表情服装、变换风格等。

如果你是一个“铲屎官”,有了这种模式的“换景能力”,你就可以足不出户的看到你的狗出家门,比如在凡尔赛宫,富士山脚下。

光线也是自然的。

不仅如此,宠物的动作和表情也可以随意指定。确实“一句话p图”的细节很到位。

除了以上的“基础练习”,DreamBooth甚至可以改变各种照片风格,也就是所谓的“添加滤镜”。

比如各种“世界名画”画风,各种视角的狗,不要太艺术化:

至于装修他们?各种cosplay道具也是小菜一碟。

此外,无论是改变颜色:

就更神奇了。这个人工智能可以改变物种。

那么,如此有趣的效果背后的原理是什么呢?

在输入中添加一个“特殊标识符”。

研究人员做了一个比较。与DALL-E2、Imagen等其他大规模文本图像模型相比。,只有DreamBooth方法可以忠实地还原输入图像。

如下图所示,输入三个右边表盘有黄色“3”的小闹钟,其中DreamBooth生成的图像完美保留了时钟的所有细节,但DALL-E2和Imagen几次生成的时钟与原时钟“有些不同”。

李悝jy和李鬼

而这正是DreamBooth最大的特色——个性化表达

用户可以随意给出一个物体的3-5张照片,他们可以在不同的背景下获得该物体的新颖表现,同时保留其关键特征。

当然,作者也说了,这种方法并不局限于某个型号,如果对Dall E2进行调整,也可以实现这种功能。

具体来说,DreamBooth采用了给对象添加“特殊标识符”的方法。

也就是说,图像生成模型接收到的原始指令只是一种物体,比如【猫】、【狗】等。,但是现在DreamBooth会在这类物体前面加一个特殊的标识符,它就变成了[V][物体类别]。

下图就是一个例子。以用户上传的三张狗照片和对应的类名(如“狗”)作为输入信息,得到一个微调的文本-图像扩散模型。

这种扩散模型用“a [V] dog”指代用户上传图片中的狗,然后将其带入文字描述中生成特定的图像,其中[V]是特殊的标识符。

至于为什么不用【V】来指代整个【特定对象】?

作者认为,受限于输入照片的数量,模型无法很好地学习照片中物体的整体特征,反而可能存在过拟合。

所以这里采用微调的思路。总体来说,还是基于AI已经学习到的【物体类别】特征,再用【V】学习到的特殊特征进行修饰。

以一只白狗的产生为例。在这里,模型会通过[V]学习狗的颜色(白色)、体型等个性化细节,加上模型在[狗]这个大类中学习到的狗的共性,可以生成更多合理又不失个性的白狗照片。

为了训练这种微调的文本-图像扩散模型,研究人员首先根据给定的文本描述生成一个低分辨率图像,然后在生成的图像中狗的图像是随机的。

然后,应用超分辨率扩散模型将随机图像替换为用户上传的特定狗。

研究团队

DreamBooth的研究团队来自谷歌,第一作者是Nataniel Ruiz。

Nataniel Ruiz是波士顿大学图像与视频计算组的四年级博士生,目前在谷歌实习。主要研究方向为模型生成、图像翻译、对抗攻击、人脸分析和仿真。

论文的链接附在文末。感兴趣的朋友快来看看吧~

论文地址:

https://arxiv.org/abs/2208.12242

参考链接:

[1]https://dreambooth.github.io/

[2]https://Twitter . com/natanielruizg/status/1563166568195821569

[3]https://natanielruiz.github.io/

转载请注明原文地址:https://juke.outofmemory.cn/read/1788304.html

最新回复(0)