我们来看一个高清版的《清明上河图》:
你能看出这幅画和原作的区别吗?
其实是艾续的一段《清明上河图》。乍一看真的有点分不清真假。
墨色几乎完全再现了原作。
无论是房屋树木,还是城市里熙熙攘攘的人群,艾的笔法都捕捉到了原始的风貌和神韵,一看真的是面目全非。
△左为原作,右为AI复制品。
或者38912 × 2048像素,可以直接把画面放大3、4倍看细节。
在这里,店里的小人可以看清楚自己在做什么,姿势和衣着都不一样。
这就是所有中国团队打造的AI——女娲无限版。
只要你喂它一些图片,或者输入一段文字,它就可以更详细地展开,最终生成一个完整的高清图像,甚至是一段流畅的视频。
这是它在学习了《清明上河图》后绘制的完整版《杰作》。
论文前脚刚上传到arXiv,Twitter就已经引起各路网友大呼惊艳!
还有油管博主光速更新的视频讲解。标题中直接使用了“超越Dall E 2 ”和“4K”等词语。
除了《清明上河图》的续写,微软的经典蓝天白云壁纸经过它的手可以变成一个无限延伸的版本。
一句话生成一个视频就更让人惊讶了。
不是,给它一个小猪佩奇的原创视频,然后输入一句话,这个“女娲”就可以自己制作漫画了。
可以根据文字处理视频,当然图片也不在话下。
给AI一张风景照,然后输入不同的文字表示,它可以根据需要给照片添加各种元素。
比如滚滚波涛、群山环绕、星星空、云彩等。,可以处理。
△“微软已经加入战场”
输入“田里有房,天上有云空”,女娲无限版立刻呈现一张精美的照片。
分辨率高达4069 × 1024,仿佛真的是用单反拍出来的。
最后,是女娲——无限的核心能力——“续画”。
在补图上,这个AI挑战了很多世界名画,几乎都能做到真迹。
梵高的星空,可以与浩瀚深邃的画面相得益彰。
笔触衔接的地方很丝滑,整体画面协调感很高。
除了世界名画,风景照也可以完成。
这种效果,就像是在拍照现场一样,直接把原图上移了。
那么,女娲-无极是如何拥有“续画”能力的呢?
基于自回归的“无限视觉合成”
与Dall E和Imagen最大的不同是,女娲-Infinity在图像生成上没有采用扩散模型。
这是因为,虽然扩散模式在图像生成中是有效的,但它没有办法改变输出图像的大小,并且图像的宽度和高度包括训练和推理都是预定义的。
当然,女娲-Infinity做不同的任务,推理出图像或者视频的步骤是不一样的。
因为文字是一维数据,图像是二维(宽度+长度)数据,视频是三维(宽度+长度+时间)数据,所以女娲-Infinity在做不同任务的时候推理顺序是不一样的。
比如在“完成形象”的过程中,形象推理向外生成一个圆圈;但是,当文本生成图像或视频文本时,这些推理的顺序会发生不同的变化:
不过女娲-Infinity也有一定的局限性。比如不像Dall E2和Imagen,是在特定数据集上训练的(清明上河图,小猪佩奇等。).
因此,一方面,女娲-Infinity能否在更一般的数据集上表现出如此好的效果还有待证明;
另一方面,目前笔者还没有将这种能力与Dall E2、Imagen等机型进行对比,所以也不能说是这个任务中最好的。只能说生成的图像大小减少了一些限制。
作者:代码已经尽力了。
吴(吴),本论文第一部作品,毕业于北京邮电大学,博士,现就职于微软亚洲研究院。
在北邮读博期间,在NeurIPS、ACM Multimedia等峰会上发表了多篇与视觉问答(VQA)相关的论文。
△图元北邮计算机学院
合著者梁健,来自北京大学。
值得一提的是,去年《ECCV 2022》收录的女娲论文也是由这两位作者完成的。
此外,微软Azure AI团队的、哲淦、、、,以及北京大学副教授方也参与了本次研究。通讯员是微软亚洲研究院高级研究员、研究经理段楠。
对于研究本身,有网友调侃:刚注册DALL E2 beta就看到这个,跟不上节奏...
也有网友大胆设想“一生”系列:以这样的速度,在本世纪末之前,我们是否能够玩到可以实时生成的定制VR游戏?
但也有读者怀疑研究的效果是“吹牛”,因为这个“无限版”的女娲还是开源的。作者之一的哲干回应说:
我们也想发布代码,我们正在努力工作。
此外,也有读者对AI“继续画”的能力提出了质疑:
对于AI来说,是“延续”一张图片难,还是从0生成一张图像难?
你怎么想呢?
论文地址:
https://arxiv.org/abs/2207.09814
项目地址:
https://nuwa-infinity.microsoft.com/#/
参考链接:
[1]https://twitter.com/_akhaliq/status/1549954767585173505
[2]https://twitter.com/zhegan4/status/1549970325705658369
[3]https://scs.bupt.edu.cn/info/1027/1798.htm
[4]https://www.youtube.com/watch? v = _ kvgsf 1 y0 mu