苹果展示新 AI 系统 GAUDI 可将文字提示转变成 3D 场景

红猪结局2022-09-24 19

最近，苹果展示了其最新的AI系统GAUDI，这是一个基于新一代NeRFs的生成式AI系统，可以生成3D室内场景。

所谓的神经渲染将AI带入计算机图形学。例如，英伟达的AI研究人员正在展示如何从照片中创建3D对象，而谷歌则依靠神经辐射场(nerf)来实现沉浸式视图或开发nerf来渲染人。

到目前为止，NeRFs主要用作3D模型和3D场景的神经存储介质，然后可以从不同的相机视角进行渲染。这就是经常显示的摄像头在房间或物体周围移动的方式，用于VR体验的初步NeRF实验也在进行中。

但是如果NeRF从不同角度逼真渲染图像的能力可以用来生成AI呢？OpenAI的DALL-E 2或谷歌的Imagen和Parti等人工智能系统显示了可控人工智能生成的潜力，但它仅限于2D图像和图形。

2021年底，谷歌通过Dream Fields首次展示了3D AI生成系统，结合了NeRF生成3D视图的能力和OpenAI评估图像内容的CLIP能力。因此，Dream Fields会生成与文本描述相匹配的NeRF。

现在，苹果AI团队正在推出生成沉浸式3D场景的神经架构GAUDI，它可以根据文本提示创建3D场景。虽然Google致力于使用Dream Fields生成单个对象，但是将生成的AI扩展到完全无约束的3D场景仍然是一个未解决的问题。

原因之一可能是摄像头位置的限制。虽然对于单个对象，每个可能的合理摄像机位置都可以映射到一个圆顶，但在3D场景中，这些摄像机位置会受到对象和墙壁等障碍物的限制。如果在场景生成期间没有考虑这些因素，则生成的3D场景将不可用。

苹果的高迪模式通过三个专门的网络解决了这个问题。其中相机姿态解码器预测可能的相机位置，并确保输出是3D场景架构的有效位置；解码器通过3D画布预测场景。并且辐射场解码器使用体绘制方程在其上绘制后续图像。

在四个不同数据集(包括室内扫描数据集ARKitScences)上的实验中，研究人员表明，GAUDI可以重建学习视图，并匹配现有方法的质量。

苹果还展示了高迪可以通过3D室内场景生成新的相机动作。生成可以是随机的，从图像开始，或者由文本编码器的文本输入控制。

高迪的视频质量还是比较低的，而且都是神器。但凭借其人工智能系统，苹果正在为一个可以渲染3D对象和场景的生成式人工智能系统奠定另一个基础。一个可能的应用是为苹果的XR头显生成数字位置。

转载请注明原文地址:https://juke.outofmemory.cn/read/1765743.html

场景