千万别让富坚义博看到这个

诺基亚滑盖手机2022-09-23  18

千万别让富坚义博看到这个

我们来看一个高清版的《清明上河图》:

你能看出这幅画和原作的区别吗?

其实是续的一段《清明上河图》。乍一看真的有点分不清真假

墨色几乎完全再现了原作。

无论是房屋树木,还是城市里熙熙攘攘的人群,艾的笔法都捕捉到了原始的风貌和神韵,一看真的是面目全非。

左为原作,右为AI复制品。

或者38912 × 2048像素,可以直接把画面放大3、4倍看细节。

在这里,店里的小人可以看清楚自己在做什么,姿势和衣着都不一样。

这就是所有中国团队打造的AI——女娲无限版

只要你喂它一些图片,或者输入一段文字,它就可以更详细地展开,最终生成一个完整的高清图像,甚至是一段流畅的视频。

这是它在学习了《清明上河图》后绘制的完整版《杰作》。

论文前脚刚上传到arXiv,Twitter就已经引起各路网友大呼惊艳!

还有油管博主光速更新的视频讲解。标题中直接使用了“超越Dall E 2 ”和“4K”等词语。

除了《清明上河图》的续写,微软的经典蓝天白云壁纸经过它的手可以变成一个无限延伸的版本。

一句话生成一个视频就更让人惊讶了。

不是,给它一个小猪佩奇的原创视频,然后输入一句话,这个“女娲”就可以自己制作漫画了。

可以根据文字处理视频,当然图片也不在话下。

给AI一张风景照,然后输入不同的文字表示,它可以根据需要给照片添加各种元素。

比如滚滚波涛、群山环绕、星星空、云彩等。,可以处理。

“微软已经加入战场”

输入“田里有房,天上有云空”,女娲无限版立刻呈现一张精美的照片。

分辨率高达4069 × 1024,仿佛真的是用单反拍出来的。

最后,是女娲——无限的核心能力——“续画”。

补图上,这个AI挑战了很多世界名画,几乎都能做到真迹。

梵高的星空,可以与浩瀚深邃的画面相得益彰。

笔触衔接的地方很丝滑,整体画面协调感很高。

除了世界名画,风景照也可以完成。

这种效果,就像是在拍照现场一样,直接把原图上移了。

那么,女娲-无极是如何拥有“续画”能力的呢?

基于自回归的“无限视觉合成”

与Dall E和Imagen最大的不同是,女娲-Infinity在图像生成上没有采用扩散模型

这是因为,虽然扩散模式在图像生成中是有效的,但它没有办法改变输出图像的大小,并且图像的宽度和高度包括训练和推理都是预定义的。

当然,女娲-Infinity做不同的任务,推理出图像或者视频的步骤是不一样的。

因为文字是一维数据,图像是二维(宽度+长度)数据,视频是三维(宽度+长度+时间)数据,所以女娲-Infinity在做不同任务的时候推理顺序是不一样的。

比如在“完成形象”的过程中,形象推理向外生成一个圆圈;但是,当文本生成图像或视频文本时,这些推理的顺序会发生不同的变化:

不过女娲-Infinity也有一定的局限性。比如不像Dall E2和Imagen,是在特定数据集上训练的(清明上河图,小猪佩奇等。).

因此,一方面,女娲-Infinity能否在更一般的数据集上表现出如此好的效果还有待证明;

另一方面,目前笔者还没有将这种能力与Dall E2、Imagen等机型进行对比,所以也不能说是这个任务中最好的。只能说生成的图像大小减少了一些限制。

作者:代码已经尽力了。

(吴),本论文第一部作品,毕业于北京邮电大学,博士,现就职于微软亚洲研究院。

在北邮读博期间,在NeurIPS、ACM Multimedia等峰会上发表了多篇与视觉问答(VQA)相关的论文。

图元北邮计算机学院

合著者梁健,来自北京大学。

值得一提的是,去年《ECCV 2022》收录的女娲论文也是由这两位作者完成的。

此外,微软Azure AI团队的、哲淦、、、,以及北京大学副教授方也参与了本次研究。通讯员是微软亚洲研究院高级研究员、研究经理段楠。

对于研究本身,有网友调侃:刚注册DALL E2 beta就看到这个,跟不上节奏...

也有网友大胆设想“一生”系列:以这样的速度,在本世纪末之前,我们是否能够玩到可以实时生成的定制VR游戏?

但也有读者怀疑研究的效果是“吹牛”,因为这个“无限版”的女娲还是开源的。作者之一的哲干回应说:

我们也想发布代码,我们正在努力工作。

此外,也有读者对AI“继续画”的能力提出了质疑:

对于AI来说,是“延续”一张图片难,还是从0生成一张图像难?

你怎么想呢?

论文地址:

https://arxiv.org/abs/2207.09814

项目地址:

https://nuwa-infinity.microsoft.com/#/

参考链接:

[1]https://twitter.com/_akhaliq/status/1549954767585173505

[2]https://twitter.com/zhegan4/status/1549970325705658369

[3]https://scs.bupt.edu.cn/info/1027/1798.htm

[4]https://www.youtube.com/watch? v = _ kvgsf 1 y0 mu

转载请注明原文地址:https://juke.outofmemory.cn/read/1755556.html
最新回复(0)