一个起源于奥菲寺庙。
量子比特|微信官方账号QbitAI
有了这个发明,以后演员就不用挖图了?
答:可以直接一键合成。(手动狗头)
让我们快速浏览一下苹果新开发的这个NeuMan框架:
只需输入一个角色的视频10s左右,就可以合成角色在新场景下做各种新动作的图像。
向前转空?如此简单!
目前,关于纽曼的研究论文已经被收录到ECCV 22中,并在GitHub上开源。
全新的场景渲染
在介绍诺伊曼原理之前,先来欣赏几个很酷的例子~
如下图,左上角是输入的训练视频,左下角是新的背景,右上角是新背景下合成的小哥哥跳跃的效果。
首先,在训练场景NeRF模型时,我们首先从输入视频中提取摄像机姿态、稀疏场景模型和多视点立体深度图。
对于原始视频中被人体遮挡的部分,使用Mask R-CNN分割图像实体,并对人体的掩膜进行4倍扩展,保证人体被完全遮挡。此时,可以只在背景上训练场景NeRF模型。
至于人类NeRF模型的训练,研究人员已经引入了端到端的SMPL优化和纠错神经网络。
SMPL(Skinned Multi-Person Linear Model)是一种基于顶点的人体三维模型,可以精确地表示人体的不同形状和姿势。
如下图所示,端到端的SMPL优化人体模型可以更好地代表人体的典型体积。
纠错神经网络用于弥补SMPL模型不能表达的细节。值得一提的是,它只在训练过程中使用,在渲染新场景时会被抛弃,以免造成过拟合。
接下来,在两个模型的对齐阶段,研究人员首先使用COLMAP来解决任意尺度下的对齐问题。然后,通过假设人类与地面始终至少有一个接触点,进一步估算场景的比例。
最后,SMPL网格和场景的点云叠加,形成新图像的渲染效果。
最终成品表明,该场景的NeRF模型能够在有限的场景覆盖下,有效去除场景中的人类,生成高质量的新背景渲染图像。
NeRF model还可以捕捉到人体的细节,包括袖子、衣领甚至衣服拉链,甚至在渲染新动作时还能进行难度极高的翻滚动作。
值得一提的是,不像目前其他NeRF机型对训练视频的要求很高,比如多摄像头拍摄、保持曝光恒定、保持背景干净等。,NeuMan最大的亮点就是只需要用户随意上传的单个视频就可以达到同样的效果。
再者,在输入六组不同的视频后,数据显示,与之前的方法相比,NeuMan的方法渲染的视频质量最好。
不过,研究团队也承认,纽曼的设计仍然存在一些缺陷。
比如生成的视频中的手部细节,由于人在活动中手势的微妙多变的变化,并不是很准确。
另外,在渲染NeRF模型时,由于系统假设人类始终与地面至少有一个接触点,因此NeuMan无法适用于人类与地面零接触的视频,比如人类转动空的视频。
要解决这个问题,我们需要更多的智能几何推理知识,这也是未来研究的一个发展方向。
研究团队
这项研究是苹果机器学习研究中心和不列颠哥伦比亚大学的合作。
第一作者姜维是不列颠哥伦比亚大学计算机科学专业四年级博士生。目前在苹果机器学习研究中心实习。
主要研究方向为新透视合成、视觉定位、三维视觉。
他还是不列颠哥伦比亚大学计算机视觉实验室的成员,导师是Kwang Moo Yi教授。
我在波士顿大学获得计算机科学硕士学位,在浙江工业大学获得软件工程硕士学位。
参考链接:
[1]https://twitter.com/anuragranj/status/1559606408789708800
[2]https://arxiv.org/abs/2203.12575
[3]https://machine learning . apple . com/research/neural-human-radiance-field
[4]https://github.com/apple/ml-neuman
[5]https://jiangwei221.github.io/
—超过—
“人工智能”与“智能汽车”微信社区邀您加入!
欢迎关注人工智能和智能汽车的朋友加入我们,与AI从业者交流,以免错过最新的行业发展技术进步。
赞美诗加好友请备注姓名-公司-职位~
这里关注我,记得标注星星~
分享、喜欢、观看一键三通。
前沿科技进步一天天见面~