虎古代名画

四川名小吃2022-08-23  21

宋朝名画“虎戴VR”,在外网火了

来自雷锦奥菲寺的Alex
qubit | qbi tai在微信官方账号

谁能想到宋朝老虎有一天能在国外打。

事情是这样的。

不久前 Google 出了一个AI创作神器Imagen

只要你给一个词,它就能生成符合语义的图片。

然后有脑洞大的外国网友不按套路给Imagen出了个问题:

Imagen也不怕。《一个snap》给出了一个代表作——《穿VR的老虎》

别说,这个“老虎穿VR”还真有点味道。

不仅仅是画风,VR头套也能和老虎以及整幅画保持一致。

连手柄和双虎嬉闹的感觉都是一步画出来的。

然后是两只穿VR的老虎,手牵手在一起“陈文静查”:

甚至Imagen还设计了一个“连线”版的VR(可能是面对面看电影):

但毕竟AI绘画除了Google Imagen还有很多神器。

于是,一场“老虎穿VR”的绘画大战拉开序幕。

(猜猜谁的画更有“虎在心中,嗅玫瑰”的味道)

Dal-e也来战斗

首先,必须是OpenAI达尔·E

网友Jacob出于好奇,用它做了几张图进行对比。

首先,《穿VR的老虎》充满了“定妆照”的风格(很尴尬):

不难看出,DALL E的画和Imagen的画在风格上还是有很大区别的。

Imagen的画更倾向于简单的线条感,DALL E则多了一点油画元素。

但在意境上,DALL E也能出“双胡嬉闹”,甚至拟人化的画:

相比之下,网友们给出了自己的评论:

大多数网民为谷歌的Imagen付费更多。

除了他们,AI画图神器中旅也参与了这场“大战”。

但是,它的作品有点怪异...

DALL E VS Imagen

那么,同样作为AI创作神器,为什么最近火的Imagen和DALL E的风格完全不一样?

Open的DALL E和Google的Imagen都可以通过文字描述直接生成超现实的图像,让机器也能拥有设计师般的创造力。

然而,他们的“创造”原则却大相径庭。

dall e2 使用CLIP将文本特征映射到图像特征,然后引导GAN或扩散模型生成图像。

所谓剪辑,就是对各种图片和文字进行训练的神经网络,对生成的图片进行排序,选择生成效果较好的进行展示。

Google的Imagen使用纯语言模型只对文本特征进行编码,把文本到图像转换的工作留给了图像生成模型。

语言部分使用谷歌自己的T5-XXL编码器来冻结训练好的文本。

图像生成部分是一系列扩散模型,生成低分辨率图像,然后逐步过采样。

谷歌T5-XXL拥有46亿个参数,扩大文本编码器的规模可以有效提高文本与图像的对应性,以及图像的保真度。

此外,Imagen还使用了另一种称为噪声调节增强(noise conditioning augmentation)的扩散技术来帮助模型学习添加的噪声量,从而提高图像的可还原度。

相比之下,Imagen似乎比DALL E更“现实”:

目前Imagen官网上已经出现了各种新奇的形象。

有人给浣熊戴上了宇航员头盔。

泰迪熊在这里开始蝶泳。

还有老鹰巧克力冰淇淋(嗯,挺合适的)。

截至目前,Imagen和DALL E都还处于调试阶段,并未对外开放。

还有一点

在这场老虎穿VR的AI绘画大战中,也有一些失败的作品。

比如有网友举了一个用DALL E mini生成的例子。

不难看出,虎戴VR这一版没有VR,老虎的脸基本上是模糊的。

根据网友的描述,他只是在其生成过程中将“北宋”改成了“南宋”:

那么你觉得老虎戴VR哪个AI神器表现更好呢?


https://Twitter . com/hard maru/status/1532757753797586944?s = 21 ampt=MhwVN5VXH22zFK7DWQJnCg

转载请注明原文地址:https://juke.outofmemory.cn/read/1297210.html

最新回复(0)