苹果展示新 AI 系统 GAUDI 可将文字提示转变成 3D 场景
最近,苹果展示了其最新的AI系统GAUDI,这是一个基于新一代NeRFs的生成式AI系统,可以生成3D室内场景。
所谓的神经渲染将AI带入计算机图形学。例如,英伟达的AI研究人员正在展示如何从照片中创建3D对象,而谷歌则依靠神经辐射场(nerf)来实现沉浸式视图或开发nerf来渲染人。
到目前为止,NeRFs主要用作3D模型和3D场景的神经存储介质,然后可以从不同的相机视角进行渲染。这就是经常显示的摄像头在房间或物体周围移动的方式,用于VR体验的初步NeRF实验也在进行中。
但是如果NeRF从不同角度逼真渲染图像的能力可以用来生成AI呢?OpenAI的DALL-E 2或谷歌的Imagen和Parti等人工智能系统显示了可控人工智能生成的潜力,但它仅限于2D图像和图形。
2021年底,谷歌通过Dream Fields首次展示了3D AI生成系统,结合了NeRF生成3D视图的能力和OpenAI评估图像内容的CLIP能力。因此,Dream Fields会生成与文本描述相匹配的NeRF。
现在,苹果AI团队正在推出生成沉浸式3D场景的神经架构GAUDI,它可以根据文本提示创建3D场景。虽然Google致力于使用Dream Fields生成单个对象,但是将生成的AI扩展到完全无约束的3D场景仍然是一个未解决的问题。
原因之一可能是摄像头位置的限制。虽然对于单个对象,每个可能的合理摄像机位置都可以映射到一个圆顶,但在3D场景中,这些摄像机位置会受到对象和墙壁等障碍物的限制。如果在场景生成期间没有考虑这些因素,则生成的3D场景将不可用。
苹果的高迪模式通过三个专门的网络解决了这个问题。其中相机姿态解码器预测可能的相机位置,并确保输出是3D场景架构的有效位置;解码器通过3D画布预测场景。并且辐射场解码器使用体绘制方程在其上绘制后续图像。
在四个不同数据集(包括室内扫描数据集ARKitScences)上的实验中,研究人员表明,GAUDI可以重建学习视图,并匹配现有方法的质量。
苹果还展示了高迪可以通过3D室内场景生成新的相机动作。生成可以是随机的,从图像开始,或者由文本编码器的文本输入控制。
高迪的视频质量还是比较低的,而且都是神器。但凭借其人工智能系统,苹果正在为一个可以渲染3D对象和场景的生成式人工智能系统奠定另一个基础。一个可能的应用是为苹果的XR头显生成数字位置。