NVIDIA Instant NeRF 技术将2D照片转换为3D场景

2022-04-12崇光

电脑报 2022年13期

崇光

用2D圖像重建3D场景一直在进步，快速渲染的算法也在加强

我们都知道，传统相机将3D场景捕获为2D图像。反过来呢？有没有办法将 2D 图像转换为逼真的3D 场景？近期NVIDIA Research的AI 工程师正在研究逆向渲染，这是一个使用人工智能来估计光线的行为方式，然后从“以不同角度拍摄的少量 2D 图像”重建 3D 场景的过程。NVIDIA 研究团队表示，他们已经开发出一种几乎可以立即执行此任务的方法。它是同类中首批利用神经网络训练并提供快速渲染的模型之一。

这种方法应用于神经辐射场，也称为NeRF，其中名为Instant NeRF 的新方法是迄今为止最快的 NeRF 技术。在某些情况下，它比其他方法快大约 1000 倍。该模型可以在“几分钟”内对几十张静态照片进行训练，而 Instant NeRF 可以在“几十毫秒”内渲染生成 3D 场景。

NeRF 使用神经网络使用 2D 图像输入来渲染 3D 场景。例如，假设用户尝试从各个角度拍摄个人照片，捕获了几十个不同的角度。从这组 2D 图像中，NeRF 可以使用AI填充空白，然后训练神经网络以重建 3D 整体场景，NeRF可以预测来自3D空间中任何方向的光线。

是什么让 Instant NeRF 与众不同？虽然基于局部视图估计物体的深度和外观是人类的一项自然技能，但对人工智能来说却是一项艰巨的任务。这种需求意味着训练早期的NeRF 模型需要数小时，Instant NeRF 使用 NVIDIA 的多分辨率哈希网格编码技术将渲染时间缩短了“几个数量级”，该技术针对 NVIDIA GPU 进行了优化，所以速度要迅猛得多。

NVIDIA 图形研究副总裁大卫·卢贝克说：“如果说多边形网格等传统 3D 表示类似于矢量图，那么 NeRF 就像位图图像：它们密集地捕捉光线从物体或场景中辐射的方式。” “从这个意义上说，Instant NeRF 对 3D 的重要性可能不亚于数码相机和 JPEG 压缩对 2D 摄影的重要性——极大地提高了 3D 捕获和共享的速度、易用性和范围。”

从当前的摄影技巧来讲，器材不断升级，Instant NeRF“可用于为虚拟世界创建化身或场景，以 3D 形式捕捉视频会议参与者及其环境，或为 3D 数字地图重建场景” 。除了满足传统摄影，还可用于训练机器人和自动驾驶汽车，对于我们创造更好的作品，捕捉周围生动的现实世界物体是大大有利的。