图1为了表示来自2D图像的3D场景,光场网络将3D场景的360度光场编码到神经网络中,该神经网络将每个相机光线直接映射到该光线观察到的颜色。
人类非常擅长查看单个2D图像,并理解它捕捉到的完整3D场景,但人工智能不能。
然而,需要与世界上的物体进行交互的机器——,例如被设计为收获农作物或辅助手术的机器人3354,必须能够从对其训练的2D图像的观察中推断3D场景的属性。尽管科学家已经成功地使用神经网络从图像中推断出3D场景的表示,但这些机器学习方法的速度还不够快,无法使它们适用于许多现实世界的应用。
麻省理工学院和其他地方的研究人员展示的一项新技术可以比一些现有模型快15000倍地从图像中呈现3D场景。
在这种方法中,场景被表示为360度的光场,3D空间中的所有光线都用函数来描述,流经每个点和每个方向。光线被编码到神经网络中,因此可以更快地从图像中渲染出底层的3D场景。
本研究中开发的光场网络(LFN)只需观察一次图像即可重建光场,并能以实时帧率渲染3D场景。
图2给定3D场景的图像和光,光场网络可以计算关于底层3D场景的几何形状的丰富信息。
麻省理工学院CSAIL博士后、论文的共同主要作者文森特西茨曼(Vincent Sitzmann)表示,“归根结底,这些神经场景的巨大前景是将其用于视觉任务。例如,现在给你一张图片,然后你从这张图片创建一个场景表示。之后,你想推理的一切都将在这个3D场景的空间中完成”。
1 映射光线
在计算机视觉和计算机图形学中,从图像渲染3D场景涉及映射成千上万的相机光线。把相机光线想象成从相机镜头发出的激光束,照亮图像中的每个像素。这些计算机模型必须确定每个摄像机光线照射到的像素的颜色。
目前,许多方法使用相机在每条光线在空间移动时沿其长度方向收集数百个样本,这是一个计算成本很高的过程,并可能导致渲染缓慢。
相反,LFN学习表示3D场景的光场,然后将光场中的每条相机光线直接映射到该光线观察到的颜色。LFN利用光场的独特属性,只需要一次评估就可以渲染光线,所以LFN不需要沿着光线的长度停下来运行计算。
“当你使用其他方法渲染时,你必须跟随光线直到你找到表面。你需要制作成千上万个样本,因为这就是找到一个表面的意义。因为可能会有一些像透明或者反射这样复杂的东西,你甚至都完成不了。一旦你重建了光场(这是一个复杂的问题),渲染一束光只需要从表示中提取一个样本,因为表示直接将一束光映射到它的颜色”,Sitzmann说。
LFN使用“普吕克坐标”对每条相机光线进行分类,该坐标根据其方向和与原点的距离在3D空间中表示一条线。系统会计算每条相机光线到达像素点的普吕克坐标,以渲染图像。
通过用Plcker坐标映射每条光线,LFN还可以计算出由于视差效应而产生的场景几何形状。视差是当从两条不同的视线观看时,物体的明显位置差异。例如,如果你移动你的头,远处的物体似乎比近处的物体移动得少。由于视差,LFN可以判断场景中物体的深度,并使用这些信息来编码场景的几何形状和外观。
但是要重建光场,神经网络必须首先了解光场的结构,因此研究人员使用许多汽车和椅子的简单场景图像来训练他们的模型。
“光场有一个内部几何结构,这正是我们的模型试图学习的。你可能会担心,汽车和椅子的光场差别太大,你无法理解它们之间的一些共性。但事实证明,如果你增加更多种类的物体,只要有一些同质性,你就会越来越了解一般物体的光场外观,因此你可以概括出类别,”雷奇科夫说。
一旦模型学习了光场的结构,它就可以只使用一个图像作为输入来渲染3D场景。
2 快速渲染
研究人员通过重建几个简单场景的360度光场来测试他们的模型。
他们发现LFN可以以每秒500帧以上的速度渲染场景,这比其他方法快了大约三个数量级。此外,LFN渲染的3D对象通常比其他模型生成的对象更清晰。
LFN的内存密度也很低,只需要大约1.6 MB的存储空间,而流行的基线方法需要146 MB的存储空间。
“以前有人提出过光场,但当时它们很难处理。现在,通过本文使用的这些技术,实现了这些光场可以被表示和使用。
这是我们开发的数学模型和神经网络模型的有趣融合,用于表示场景的应用程序,因此机器可以对它们进行推理,”Sitzmann说。
在未来,研究人员希望使他们的模型更加鲁棒,以便可以有效地用于复杂的现实世界场景。Sitzmann表示,推动LFN前进的一种方法是只关注重建光场的一些补丁,这可以使模型运行更快,在真实环境中表现更好。
“最近,神经渲染技术可以仅从一组稀疏的输入视图中实现照片级真实感渲染和图像编辑。不幸的是,所有现有技术的计算成本都很高,这阻碍了需要实时处理的应用,如视频会议。
斯坦福大学电子工程副教授Gordon Wetzstein说:“这个项目是向具有高计算效率和优雅数学的新一代神经渲染算法迈出的一大步。我预计它将广泛应用于计算机图形学、计算机视觉等领域。”
时间的力量——1991人工智能大辩论三十周年:社会主义不再,相互和谐共同成长| |GAIR 2021
2021-12-12
关于智慧、三个变化、串行通信、边缘渗透、认知进化和机器融合:听五位乔春明谈论人工智能的未来| GAIR 2021
2021-12-25
新一代AI人才从哪里来,又该何去何从?| GAIR 2021院长论坛
2021-12-29
工程渲染图
最近一项专利的流出,似乎透露了PS5开发机的模样。
据报道,索尼于今年5月申请了上图所示的设计专利,此后,这项专利于8月13日在WIPO(世界知识产权局)注册。这项专利属于游戏主机。PS4去年也申请了类似的专利,同样被归类在相同的位置。在索尼的专利中,也提到了设计者的名字冯康宏。这个设计师在索尼的职位是工程总监。
设计图中显示的V型凹槽不禁让人想起罗马数字5,似乎在它的正面还能看到电源键、光驱、HDMI接口等等。目前大家都猜测这是PS5的外观或者是它的开发机。
虽然索尼没有对专利做出回应,但《尘埃》系列的开发者Codemasters的高级艺术家马修斯托特后来证实,这确实是PS5的开发机,就在他们的办公室里。
而且由于这款开发机的特殊外观,尤其是机器上部的V型凹槽,颠覆了以往家用主机的盒子设计,使得整体造型有了很大的想象空间,这也吸引了玩家的想象力。网站LetsGoDigital根据PS5开发机的专利图做了真机的3D渲染图,看起来科技感十足。
渲染图中,开发机的V型槽被描绘成散热单元,机器的前面板是PS5的logo和各种操作按钮。为了突出新机的硬件性能,画师还特意标注了“SSD硬盘”的字样。
不过以上只是发烧友自制的渲染图,并不是PS5开发机的真实样子。至于PS5到底长什么样,我们还是要耐心等待索尼官方的公布。
关注我们,实时获取更专业、严谨、有趣的游戏内容。