谷歌用新 AI 超越自己：让 Imagen 能够指定生成对象，风格还能随意转换

快递公司查询2022-09-26 6

Imagen加入「命中你指的地方」的能力会变得多强？

只需上传3-5张指定物体的照片，并用文字描述你想要生成的背景、动作或表情，指定物体就能“闪”进你想要的场景，动作表情都栩栩如生。

不仅是动物，其他物品如太阳镜、书包和花瓶也可以制成几乎是真正的成品:

属于那种不会被别人看到的朋友。(手动狗头)

这种神奇的文本图像生成模型被命名为DreamBooth，是谷歌的最新研究成果。在Imagen的基础上进行了调整，一经发布便在推特上引起了热议。

有网友调侃:这简直就是最先进的梗图生成器。

目前相关研究论文已上传至arXiv。

几张照片就能“环游世界”

在介绍原理之前，我们先来看看DreamBooth的各种能力，包括变换场景、分配动作和表情服装、变换风格等。

如果你是一个“铲屎官”，有了这种模式的“换景能力”，你就可以足不出户的看到你的狗出家门，比如在凡尔赛宫，富士山脚下。

△光线也是自然的。

不仅如此，宠物的动作和表情也可以随意指定。确实“一句话p图”的细节很到位。

除了以上的“基础练习”，DreamBooth甚至可以改变各种照片风格，也就是所谓的“添加滤镜”。

比如各种“世界名画”画风，各种视角的狗，不要太艺术化:

至于装修他们？各种cosplay道具也是小菜一碟。

此外，无论是改变颜色:

就更神奇了。这个人工智能可以改变物种。

那么，如此有趣的效果背后的原理是什么呢？

在输入中添加一个“特殊标识符”。

研究人员做了一个比较。与DALL-E2、Imagen等其他大规模文本图像模型相比。，只有DreamBooth方法可以忠实地还原输入图像。

如下图所示，输入三个右边表盘有黄色“3”的小闹钟，其中DreamBooth生成的图像完美保留了时钟的所有细节，但DALL-E2和Imagen几次生成的时钟与原时钟“有些不同”。

△李悝jy和李鬼

而这正是DreamBooth最大的特色——个性化表达。

用户可以随意给出一个物体的3-5张照片，他们可以在不同的背景下获得该物体的新颖表现，同时保留其关键特征。

当然，作者也说了，这种方法并不局限于某个型号，如果对Dall E2进行调整，也可以实现这种功能。

具体来说，DreamBooth采用了给对象添加“特殊标识符”的方法。

也就是说，图像生成模型接收到的原始指令只是一种物体，比如【猫】、【狗】等。，但是现在DreamBooth会在这类物体前面加一个特殊的标识符，它就变成了[V][物体类别]。

下图就是一个例子。以用户上传的三张狗照片和对应的类名(如“狗”)作为输入信息，得到一个微调的文本-图像扩散模型。

这种扩散模型用“a [V] dog”指代用户上传图片中的狗，然后将其带入文字描述中生成特定的图像，其中[V]是特殊的标识符。

至于为什么不用【V】来指代整个【特定对象】？

作者认为，受限于输入照片的数量，模型无法很好地学习照片中物体的整体特征，反而可能存在过拟合。

所以这里采用微调的思路。总体来说，还是基于AI已经学习到的【物体类别】特征，再用【V】学习到的特殊特征进行修饰。

以一只白狗的产生为例。在这里，模型会通过[V]学习狗的颜色(白色)、体型等个性化细节，加上模型在[狗]这个大类中学习到的狗的共性，可以生成更多合理又不失个性的白狗照片。

为了训练这种微调的文本-图像扩散模型，研究人员首先根据给定的文本描述生成一个低分辨率图像，然后在生成的图像中狗的图像是随机的。

然后，应用超分辨率扩散模型将随机图像替换为用户上传的特定狗。

研究团队

DreamBooth的研究团队来自谷歌，第一作者是Nataniel Ruiz。

Nataniel Ruiz是波士顿大学图像与视频计算组的四年级博士生，目前在谷歌实习。主要研究方向为模型生成、图像翻译、对抗攻击、人脸分析和仿真。

论文的链接附在文末。感兴趣的朋友快来看看吧~

论文地址:

https://arxiv.org/abs/2208.12242

参考链接:

[1]https://dreambooth.github.io/

[2]https://Twitter . com/natanielruizg/status/1563166568195821569

[3]https://natanielruiz.github.io/

转载请注明原文地址:https://juke.outofmemory.cn/read/1788304.html

00 生成海报

生成

指定

超越

转换

对象

焖猪肚需要什么配料

上一篇2022-9-26

电动车行驶证不是本人的可以吗

下一篇2022-9-26

最新回复(0)