来自雷锦奥菲寺的Alex
qubit | qbi tai在微信官方账号
谁能想到宋朝的老虎有一天能在国外打。
事情是这样的。
不久前 Google 出了一个AI创作神器Imagen。
只要你给一个词,它就能生成符合语义的图片。
然后有脑洞大的外国网友不按套路给Imagen出了个问题:
Imagen也不怕。《一个snap》给出了一个代表作——《穿VR的老虎》。
别说,这个“老虎穿VR”还真有点味道。
不仅仅是画风,VR头套也能和老虎以及整幅画保持一致。
连手柄和双虎嬉闹的感觉都是一步画出来的。
然后是两只穿VR的老虎,手牵手在一起“陈文静查”:
甚至Imagen还设计了一个“连线”版的VR(可能是面对面看电影):
但毕竟AI绘画除了Google Imagen还有很多神器。
于是,一场“老虎穿VR”的绘画大战拉开序幕。
(猜猜谁的画更有“虎在心中,嗅玫瑰”的味道)
Dal-e也来战斗
首先,必须是OpenAI的达尔·E。
网友Jacob出于好奇,用它做了几张图进行对比。
首先,《穿VR的老虎》充满了“定妆照”的风格(很尴尬):
不难看出,DALL E的画和Imagen的画在风格上还是有很大区别的。
Imagen的画更倾向于简单的线条感,DALL E则多了一点油画元素。
但在意境上,DALL E也能出“双胡嬉闹”,甚至拟人化的画:
相比之下,网友们给出了自己的评论:
大多数网民为谷歌的Imagen付费更多。
除了他们,AI画图神器中旅也参与了这场“大战”。
但是,它的作品有点怪异...
DALL E VS Imagen
那么,同样作为AI创作神器,为什么最近火的Imagen和DALL E的风格完全不一样?
Open的DALL E和Google的Imagen都可以通过文字描述直接生成超现实的图像,让机器也能拥有设计师般的创造力。
然而,他们的“创造”原则却大相径庭。
dall e2 使用CLIP将文本特征映射到图像特征,然后引导GAN或扩散模型生成图像。
所谓剪辑,就是对各种图片和文字进行训练的神经网络,对生成的图片进行排序,选择生成效果较好的进行展示。
Google的Imagen使用纯语言模型只对文本特征进行编码,把文本到图像转换的工作留给了图像生成模型。
语言部分使用谷歌自己的T5-XXL编码器来冻结训练好的文本。
图像生成部分是一系列扩散模型,生成低分辨率图像,然后逐步过采样。
谷歌T5-XXL拥有46亿个参数,扩大文本编码器的规模可以有效提高文本与图像的对应性,以及图像的保真度。
此外,Imagen还使用了另一种称为噪声调节增强(noise conditioning augmentation)的扩散技术来帮助模型学习添加的噪声量,从而提高图像的可还原度。
相比之下,Imagen似乎比DALL E更“现实”:
目前Imagen官网上已经出现了各种新奇的形象。
有人给浣熊戴上了宇航员头盔。
泰迪熊在这里开始蝶泳。
还有老鹰巧克力冰淇淋(嗯,挺合适的)。
截至目前,Imagen和DALL E都还处于调试阶段,并未对外开放。
还有一点
在这场老虎穿VR的AI绘画大战中,也有一些失败的作品。
比如有网友举了一个用DALL E mini生成的例子。
不难看出,虎戴VR这一版没有VR,老虎的脸基本上是模糊的。
根据网友的描述,他只是在其生成过程中将“北宋”改成了“南宋”:
那么你觉得老虎戴VR哪个AI神器表现更好呢?
https://Twitter . com/hard maru/status/1532757753797586944?s = 21 ampt=MhwVN5VXH22zFK7DWQJnCg