自从伯克利和谷歌创造的NeRF诞生以来江湖上静态图表变图表的魔力就开始流
自从伯克利和谷歌创造的NeRF诞生以来,江湖上静态图表变图表的魔力就开始流行起来。
但是,如果你想依靠AI来简化像这样的3D动态效果的制作,计算成本可不小:
以NeRF为例,要想在14401600像素,90Hz的VR头盔中实现实时渲染,需要37 petaFLOPS,目前在GPU上还无法实现。
如何降低点的计算复杂度。
现在,来自格拉茨科技大学和脸书的研究人员想出了一个窍门:引入真正的深度信息。
在这方面,推理成本最多可降低48倍,仅用一个GPU就能以每秒20帧的速度实现交互渲染。
画质没有影响,甚至可以改善:
具体有什么诀窍让我们继续谈下去
基于深度预测网络的神经网络
首先需要注意的是,神经辐射场法NeRF沿着相机光线对5D坐标进行采样,实现图像合成。
也就是说,在NeRF的渲染过程中,需要对每一条光线的网络进行评估,输出相应的颜色,体积密度等信息。
这是实时渲染应用中NeRF开销过大的主要原因。
现在,来自格拉茨科技大学和脸书的研究人员发现,通过引入真实的深度信息,只考虑物体表面周围的重要样本,在不影响图像质量的情况下,可以大大减少每个视图光线所需的样本数量。
基于此,他们提出了DONeRF。
DONeRF由两个网络组成,一个是Sampling Oracle Network,它使用分类来预测沿视图光线的最佳采样位置。
具体而言,该深度预测网络可以通过离散化沿着射线的空间并预测沿着射线的采样概率来预测每个射线上的多个潜在采样对象。
如下图所示,三个颜色通道沿着光线对三个最高采样概率进行编码灰度值表示可能只需要对一个表面进行采样,而颜色值表示需要对这些样本进行深度扩展
其次,它是一个着色网络,使用类似于NeRF的光线传播累积方法来提供RGBA输出。
为了消除输入的模糊性,研究人员还将光线转化为统一的空间,并使用非线性采样来跟踪接近区域。
此外,在两个网络之间,研究人员扭曲了局部样本,从而可以将着色网络的高频预测引导到前景。
本文还介绍了视图单元的概念视图单位被定义为具有主方向和最大视角的边界框
简单地说,这个边界框可以捕捉来自框内和某个旋转范围内的所有视图光线。
通过这种方法,我们可以分割大场景,解决NeRF不能应用于大场景的问题。
此外,较小的视图单元减少了场景中的可见内容,因此成像质量可以进一步提高。
比较结果
因此,DONeRF与它的前身NeRF相比能有多快。
我们直接看对比结果。
在相似的质量下,NeRF总共使用了256个样本但是DONeRF只用了4个样本,可以提升20—48倍的速度
而在成像细节方面,DONeRF的图像边缘更加清晰。
研究人员还指出,在16个样本的情况下,从峰值信噪比来看,DONeRF在几乎所有场景中都超过了NeRF。
入口
论文地址:
项目地址: