
最新综述|基于RGB-D相机的3D重建技术现状
图1:这份最新的报告提供了RGB-D场景重建方法的概述。我们讨论了静态场景的几何重建的最新趋势(左),动态场景的几何重建的最新趋势(中),以及对应的颜色和反射属性的获取(右)。
摘 要
廉价的消费级RGB-D相机的出现,极大地推动了视觉场景重建方法的发展。计算机图形学和计算机视觉研究人员花费了大量的精力,开发全新的算法,利用RGB-D相机捕捉静态和动态场景的全面形状模型。这导致了在多个方面对最新技术的重大进展。一些方法在传感器分辨率有限的情况下实现了非常高的重建细节。其他方法甚至实现了实时性能,尽管可能质量较低。新的概念被开发出来,以在更大的空间和时间范围内捕捉场景。最近的算法将形状重建与同时进行的材料和光照估计相结合,甚至在一般场景和无约束条件下也能实现。
在这篇最新技术报告中,我们详细分析了RGB-D场景重建的这些最新进展,并回顾了相关的重要工作。我们解释、比较和批判性地分析了使这些最新进展成为可能的常见算法概念。此外,我们展示了如何设计算法以最大限度地利用RGB-D数据的优势,同时抑制其常常复杂的数据失真。此外,该报告还确定并讨论了重要的开放性研究问题,并提出了未来工作的相关方向。
1.引言
如今的结构光或飞行时间(time-of-flight)深度相机的核心技术已经存在了几十年。然而,最近推出的消费级传感器将这项技术封装到小型批量制造设备中,使得RGB-D相机成为更大用户群体可用的商品。微软在2010年通过Kinect开始了这一发展,并随后出现了其他设备,例如英特尔的RealSense、Primesense的Carmine、Google的Tango或Occipital的Structure Sensor等RGB-D相机。这些相机不仅价格低廉,而且这些轻巧的传感器能够以适当的分辨率和实时速率捕捉每个像素的彩色和深度图像。
结合这些特点,这使得它们在开发面向消费级应用的解决方案时,甚至超越了一些更昂贵的3D扫描系统。这些新传感器的潜力在视觉计算领域被迅速认可。例如,开创性的KinectFusion工作[NDI∗11,IKH∗11]在计算机图形学和计算机视觉社区产生了显著影响,并引发了不可思议的反响。自那时以来,在计算机图形学和计算机视觉研究领域,针对我们周围静态和动态世界的重建模型,最新的技术水平得到了极大的提升。
为了实现这一进展,许多在这一领域的基础性研究问题被重新审视和重新思考,以充分利用新的能力并弥补RGB-D相机的不足之处。首先,针对静态环境的基于RGB-D的稠密三维几何重建领域开发了极具创新性的新算法。这些算法在多个方面推动了技术水平的提升:引入了实时扫描和扫描整合的新概念,提出了减少漂移和实时扫描较大场景的新想法,并研究了在显著传感器噪声的情况下获得高质量几何数据的新方法。
其次,提出了全新的方法来捕捉动态场景和场景元素的稠密三维几何模型,例如移动人体和刚性物体的模型,以及一般可变形表面的模型。在这个领域,技术水平在多个方面得到了提高。例如,新的基于模板的方法在使用单个RGB-D相机进行捕捉时,实现了以往未曾见到的运行时性能和准确性水平。其他方法引入了新的概念,以实现非常高的重建细节,但计算成本更高。通过捕捉时空一致的几何信息和实时学习形状模板的创新概念,进一步开辟了新的可能性。
第三,全新的方法被开发出来,可以在捕捉几何信息的同时,从RGB-D数据中获取额外的场景属性。特别是,提出了新的方法来捕捉静态和动态场景的材质和反射模型,通常与光照估计同时进行,主要关注的是非标定环境。同时捕捉形状和外观是更加困难的,但它不仅可以产生更具表现力的场景模型,还可以增加在复杂场景条件下重建的鲁棒性。
在本文中,我们将详细研究和比较这三个领域的最新方法。我们将解释最近创新背后的常见算法概念。特别是,我们将解释和比较针对RGB-D几何处理和形状表示的新概念。
1.1 RGB-D相机及其特点
传统上,在范围感知中有两种主要方法,即三角测量和飞行时间(ToF)。三角测量可以作为一种被动方法实现,例如双目视觉,或者作为主动系统实现,例如结构光。双目视觉通过计算在不同位置拍摄的两幅图像之间的视差来实现,而结构光相机则将红外光图案投射到场景上,并通过图案的透视失真估计由于物体深度变化而产生的视差。另一方面,光探测与测距(LIDAR)扫描仪和飞行时间(ToF)相机通过测量由照明单元发出的光到达物体并返回到检测器所需的时间来进行测量。LIDAR扫描仪包括机械部件以实现扫描方法,而ToF相机则使用标准CMOS或CCD技术在集成电路上执行飞行时间计算。
在2000年代初期,早期的范围相机在一定程度上变得可获得,RGB-D相机的原型已经在各个研究实验室中建立起来[LKH07, HJS08]。到目前为止,大众市场上的RGB-D相机主要依靠结构光或飞行时间相机的方法[KP15]。这些RGB-D相机往往具有非常特定的噪声特性,并且有时会面临非常具有挑战性的数据失真,这在大多数情况下都需要在算法开发中予以考虑。
从功能上看,基于结构光的RGB-D相机(如第一代Kinect)和基于飞行时间(ToF)的相机(如Kinect V2)之间存在几个区别。这些区别涉及相机对抗背景光的能力(例如用于户外应用),深度数据的质量以及处理半透明介质和所谓的多路径效应的鲁棒性(即由主动光经过的间接路径所引起的效应)[SLK15]。结构光和飞行时间相机方法之间的另一个主要区别是,结构光需要在照明单元和区域传感器之间建立一个基线,而飞行时间相机则不需要这个基线。
1.2 相关的STAR报告和综述
本文涵盖了RGB-D场景重建的最新发展,包括算法概念和不同应用场景,例如静态场景重建(第2节)、动态场景重建(第3节)以及颜色和外观捕捉(第4节)。虽然有一些调查涉及与本报告相关的内容,但它们主要关注静态场景的建模技术和相关公共数据集[CLH15, HSR15]。Berger等人在2014年的Eurographics会议上发表了题为“基于点云的表面重建的现状”的论文[BTS∗14]。他们主要关注从点云数据进行三维表面重建,并根据输入点云的缺陷、输入数据类型(几何、颜色和法线信息)、支持的形状类别以及输出表面格式来对方法进行表征。
Bonneel等人在2017年的Eurographics会议上发表了题为“图像编辑的内在分解”的调研论文[BKPB17a]。他们主要关注将彩色图像分解为反射和照明层的方法。他们根据在内在分解问题上强加的先验条件对这些方法进行了分类。Weinmann等人在2016年的Eurographics会议上发表了题为“几何和反射采集的进展”的教程论文[WLGK16]。他们专注于需要复杂硬件配置的技术,以从图像数据中重建高质量的形状和反射信息,例如(空间变化的)BRDF和BSSRDF。
关于模板和基于模型的非刚性配准的一般主题,我们建议参考Bouaziz等人在SIGGRAPH Asia 2016和SGP 2015课程中的内容,以获取更多信息。[BTP15,BTLP16]。尽管这些调研和课程有关,但这份最新技术报告有着不同的重点:我们专注于以在线方式提取场景信息的方法,例如直接从原始RGB-D输入数据流中处理和累积数据。此外,这份报告还描述了动态场景的获取以及更复杂的外观模型,如空间变化的BRDF。
图2:静态场景重建:使用KinectFusion进行单个对象重建2(a),使用Voxel Hashing进行大场景捕捉2(b),基于体素(左列)和基于点(中列和右列)表示的比较2(c),以及漂移的影响及相应的闭环解决方案2(d)。图片取自[NDI∗11]、[NZIS13]、[KLL∗13a]和[ZMK13]。
2. 静态场景重建
静态环境的三维重建根源于计算机视觉和图形学的几个领域。在线重建直接与同时定位与地图构建(SLAM)相关,SLAM侧重于解决机器人在未知环境中的导航问题,例如[MAMT15, ESC14]等。在SLAM中,追踪移动机器人或无人车的位置和方向(定位),并将观测到的场景数据,主要是场景几何信息,融合成一个共同的数字表示(地图)。在SLAM中,对轨迹和姿态优化的关注较多,而重建通常局限于稀疏点云。另一方面,在计算机图形学中,密集的RGB-D重建和高几何质量是主要关注的对象。大多数现代方法都基于Curless和Levoy的基础研究[CL96],他们引入了体积融合的开创性工作,从而为第一个实时RGB-D重建方法奠定了基础[RHHL02]。
低成本的RGB-D相机的引入,例如微软的Kinect作为XBox游戏机的一部分,再加上GPU处理能力的广泛可用性,为使用RGB-D相机作为手持设备的消费级别的在线静态场景重建打开了大门。上述的理论基础和商品化硬件的可用性,使得现代在线重建方法(如Kinect Fusion [NDI∗11,IKH∗11])的开发成为可能,这也是本节的主要关注点。基于指示函数优化的Poisson表面重建[KBH06,KH13]是另一个流行的方向,通常在离线环境中用于点云数据。Tab. 1中提供了RGB-D重建框架的概述。
表1:基于RGB-D的3D重建的现状概述:目前的方法可以根据所使用的场景表示、所使用的相机跟踪器、所使用的数据关联策略、对回环闭合的支持、流式处理、对动态前景物体的鲁棒性以及运行时性能来进行区分。所有这些方面在本文中会详细讨论。
接下来,我们首先对一个参考系统(第2.1节)进行简要概述,该系统利用大众化的RGB-D传感器捕获的深度和颜色信息进行在线静态场景重建。然后,我们详细描述了该系统的各个组成部分的技术细节和不同选择,包括数据预处理(第2.2节)、相机姿态估计(第2.3节)和底层场景表示(第2.4节)。
2.1 静态场景重建的基本原理
尽管针对静态场景的RGB-D重建有许多不同的算法,但大多数(如果不是全部)这些方法都有非常相似的处理流程,我们在这里进行描述以供参考(参见图3)。
图3:典型的RGB-D重建流程概述:首先,经过预处理的输入数据与当前表面重建进行对齐;其次,根据估计的相机姿态,将输入数据集成/融合到当前的三维重建模型中。
在第一阶段,对传入的RGB-D数据进行深度图预处理,包括降噪和去除异常值。根据后续阶段的需要,可以从输入的深度图 中派生出其他附加信息,并存储在额外的输入图中(详见第2.2节)。在接下来的阶段,进行相机位姿估计,计算当前帧的最佳对齐变换 (详见第2.3节)。这可以通过逐帧对齐、帧对模型对齐或全局对齐的方式实现。最后,在深度图融合阶段,使用估计的变换T将当前输入帧中的所有点 转换,并合并到共同的模型 中(详见第2.4节)。
2.2 深度图预处理过程
研究表明,低成本相机的深度图噪声受到多种参数的影响,如获取对象的距离或深度图中的像素位置。通常,为了降低噪声,会应用双边滤波器,并使用有限差分(前向或中央差分)计算每个点的法线。根据模型表示、数据关联和姿态优化方法的不同,还可以估计进一步的几何信息。这包括各个深度测量的噪声或可靠性信息 [MHFdS∗12, LWK15],对应的3D点的半径 [KLL∗13b] 或主曲率 [LKS∗17]。
2.3 相机位姿估计
相机位姿估计(Camera Pose Estimation)计算每个新到来的RGB-D帧相对于前一帧、到目前为止重建的模型或所有前一帧的6自由度(6-DoF)位姿T。
2.3.1 追踪目标
早期关于离线3D形状注册的研究对基于深度流的实时相机追踪的当前方法产生了重要影响。最早的技术采用了迭代最近点算法(ICP)的简单帧对帧变体,并基于点对点 [BM92] 或点对面 [YM92] 的误差度量。帧对帧跟踪估计与上一个输入帧的增量变换 ,并将该估计连接到先前的姿态估计结果 。随着快速和高效ICP变体的发明[RL01],实时手持扫描与实时反馈成为现实[RHHL02]。这是一个重要的进步,因为紧密的反馈循环使系统的用户能够填补重建中的空洞,并决定对象是否已完全数字化。采用帧对帧策略的一个严重问题是在长时间扫描序列中跟踪误差的累积。
为了减少这个问题,在最近的在线RGB-D重建框架中广泛使用了基于帧对模型的跟踪[NDI∗11,IKH∗11,WKF∗12,CBI13,NZIS13]。跟踪基于[Low04a]中描述的点对平面ICP算法。与简单的帧对帧对齐策略相比,帧对模型跟踪具有两个显著优势。首先,与使用上一帧的方法相比,帧对模型跟踪使用了当前重建状态的合成深度图来锚定重建过程,从而显著减少了时间上的跟踪漂移。其次,如果使用点对平面距离度量,可以利用稳定的模型法线来定义切平面,而不是使用噪声较大的输入法线,这可以提高跟踪的准确性和稳健性。
虽然基于帧到模型的跟踪显著减少了时间上的跟踪漂移,但它并没有完全解决局部误差积累的问题,因为随着时间的推移,局部跟踪误差仍然会累积。如果在同一扫描会话中以不同的路径重新遇到已经扫描过的场景部分,这可能会导致闭环问题。在这种情况下,先前获得的重建结果将与当前的深度观测不匹配,导致跟踪失败和/或曲面的双重积分。为了缓解这些问题,引入了全局姿态优化的方法,最初应用于离线的3D场景重建[ZK13,ZMK13]。
Zhou等人的方法[ZK13]使用手持的消费级传感器来产生高质量的重建结果。他们利用兴趣点来保留局部细节,并结合全局姿态优化来均匀分布对齐误差于整个场景中。在后续的工作[ZMK13]中,为了进一步提高重建的保真度,他们对弹性片段进行非刚性束调整,以应对低频相机畸变。
Choi等人的离线方法[CZK15a]采用基于线过程的鲁棒全局姿态优化,以消除错误匹配并提高重建质量。最近,戴等人的BundleFusion方法[DNZ∗17]实现了基于在线束调整和表面重新集成的实时全局一致重建。为了提高计算效率和实时性能,该方法将输入流组织成多层次的块,并利用现代图形硬件的计算能力进行数据并行的束调整。在第一步中,新块中的所有帧会进行全局对齐(块内对齐)。然后,每个新块会与之前的所有块进行全局对齐(块间对齐)。
2.3.2 数据关联
大多数依赖于帧与帧、帧与模型或全局姿态优化的相机跟踪方法都需要识别个别帧之间和/或当前模型之间的对应点。对应点对集合被输入到优化过程中(参见第2.3.1节),以找到使整体对齐效果最佳的变换。基本上,有稀疏方法和密集技术两种。稀疏方法识别特定的特征点,而密集技术试图找到与传入帧的(几乎)所有点对应的点。
稀疏对应 一般而言,通过将当前的彩色和深度输入的特征点与之前帧或模型中检测到的对应特征进行匹配,计算得到一组稀疏对应关系。由于密集对应关系的计算复杂度较高,早期的方法仅使用了输入的RGB-D观测的子集。统计测试和数据采样可以用来增加良好对应关系的数量[RL01,
GIRL03]。在输入帧的时间序列中检测和匹配的稀疏彩色特征可以提供一个有价值的初始稀疏对应关系集合[GRB94]。特征提取和匹配的一个常用选择是SIFT(尺度不变特征变换),它已经被应用于多个3D场景重建方法中[ZK15, HKH∗12,WJK∗13, DNZ∗17]。
然而,还有许多其他稀疏特征描述符可供选择,例如SURF(加速稳健特征)[BTVG06]、ORB(方向鲁棒特征)[RRKB11],甚至最近出现的学习型描述符[HLJ∗15,YTLF16,ZSN∗17]。另一种方法是在多个帧之间搜索对应关系[WG17]。
稠密对应 所有最近的方法都使用密集对应关系的查找,结合投影数据关联[BL95]和特定的兼容性准则,以选择与给定输入点相关联的“最佳”模型点,通过检查其在图像空间中的投影邻域。大多数方法[NDI∗11, IKH∗11, WKF∗12, NZIS13, CBI13, SKC13, ZMK13, KLL∗13a, WSMG∗16, DNZ∗17]根据点到平面[YM92]的误差度量来衡量空间接近性。点到平面度量可以被视为到目标表面的距离的一阶近似。除了空间接近性,最近的方法可能还考虑了与传感器不确定性相关的距离[NIL12],表面颜色的兼容性[GRB94, NLB∗11, SKC13, RLL14],法线的兼容性[Pul99, KLL∗13b],梯度的兼容性[SG14]以及局部曲率的兼容性[LKS∗17]。
2.3.3 重新定位
在任何强大的相机跟踪系统中,从跟踪失败中恢复是一个关键步骤。Shotton等人提出了解决这个问题的一种最早方法,通过使用回归森林来预测像素位置的概率密度函数,并且后来扩展到预测多模态高斯分布。在他们的后续工作中,他们提出了一种新的通用框架,以分析合成方法最小化重建误差,其中包括使用检索森林和导航图作为搜索结构的相机姿态估计,从而实现了RGB到3D模型的定位。为了解决为每个新场景预训练回归森林的问题,这需要几分钟的时间,Cavallari等人提出了一种方法,可以将通用的预训练森林适应到新场景中,从而使回归森林具备实时能力。
Glocker等人提出了一种基于关键帧的重定位技术,其中在跟踪失败的情况下,检索与当前帧相似的关键帧的姿态,并用于重新初始化相机跟踪。这种方法已被Whelan等人用于检测先前扫描的区域,并与非刚性变形算法(第3节)结合使用以解决循环闭合。Dai等人的全局对齐策略在处理跟踪失败时隐式地解决了这个问题,因为新的块与所有先前的块进行了全局比较。如果当前块的姿态优化失败,则忽略该块,否则将其几何信息融合到3D模型中并存储其姿态。
2.4 几何表示和融合
模型 M 的表示需要非常高效地集成大量的输入范围图。此外,frame-to-model跟踪需要一种有效的方法,从任意视角生成模型的虚拟视图,以便将输入范围图与模型对齐,通常使用投影数据关联。存在两种主要的表示方法来累积观测到的RGB-D数据到一个共同的3D模型中。最常用的方式是将信息存储在一个规则或分层的3D体素网格中。另一种方法是将模型存储为累积的3D点集。
2.4.1 基于体素的表示方法
Curless和Levoy [CL96] 的原始研究引入了基于体素的融合方法,通过使用一个规则网格来存储表示模型的离散化的有符号距离函数(SDF)。这种方法被Rusinkiewicz等人 [RHHL02] 的首个实时方法所采用,并后来被现代的KinectFusion方法 [NDI∗11,IKH∗11] 所采用。基于体素的表示使用SDF(有符号距离函数)隐式地存储模型表面,即内部和外部体素分别存储到最近表面点的负距离和正距离。表面本身被定义为SDF的零交叉点。在执行算法之前,必须定义体素的大小和网格的空间范围。常见的做法是在每个体素的属性中存储额外的数据,如颜色信息。
由于靠近表面的体素特别重要,常用截断有符号距离函数(TSDF)。基于体素的表示中积累传入的深度图的基本方法是使用估计的相机位姿(参见第2.3节)将每个体素投影到深度图上,并评估其投影距离。通常,合并步骤通过对网格中的先前TSDF值和与深度图相关的传入值进行加权平均来完成。这个合并步骤通常使用加权平均方案实现,通过对多个距离样本的时间积分,非常有效地去除了传感器噪声。
为了可视化基于体素的表示,例如生成虚拟视图,可以在体素网格上应用光线投射,例如使用数字微分分析(DDA)[AW∗87]结合解析等值面相交[PSL∗98];或者可以使用Marching Cubes级集方法[LC87]提取三维网格。
规则的体素网格在内存消耗方面非常低效,并且受限于预定义的体积和分辨率。在实时场景重建的背景下,大多数方法都严重依赖于现代GPU的处理能力,因此体素网格的空间范围和分辨率通常受限于GPU内存。为了支持更大的空间范围,已经提出了各种方法来改善基于体素的表示的内存效率。
为了防止由于获取到的范围图像超出当前重建体积而导致数据丢失,Whelan等人提出了一种简单的动态移动体素网格的方法,使其随着相机的移动而移动。该方法将移动到当前重建体积之外的部分体素转换为表面网格,并将其单独存储。虽然这使得扫描体积更大,但需要大量的离线内存使用,并且无法随意重新访问已经扫描并流出的表面。
体素层级结构 一种有效存储表面的方法是使用体素层级结构,比如八叉树,其中(T)SDF可以以稀疏的方式编码在实际表面周围。尽管不具备实时能力,但Fuhrmann和Goesele[FG11]引入了一种使用自适应的类似八叉树的数据结构的分层SDF(hSDF)结构,提供不同的空间分辨率。Zeng等人 [ZZZL12,ZZZL13]使用固定的4级层次结构,并仅在最细级别上存储TSDF。Chen等人 [CBI13]提出了类似的3级层次结构,也具有固定的分辨率。
Steinbrücker等人 [SSC14]在CPU上使用多分辨率数据结构表示场景,包括用于网格输出的增量过程,以实现实时累积。Henry等人 [HFBM13]将场景细分为许多补丁体积,每个补丁体积由任意大小和分辨率的规则体素网格组成。补丁体积在姿态图中进行空间组织,该图通过优化以实现全局一致的模型。这种方法是交互式的,但不是完全实时的。Reichl等人 [RWW16]提出了一种极其紧凑的层次结构,他们仅存储一个二进制网格,并以滚动窗口的方式进行更新。
体素哈希 Voxelhashing是由Nießner等人在[NZIS13]中引入的。该方法通过一个由预定义大小和分辨率的较小体素块组成的规则网格(参见图2(b))来表示一个几乎无限的场景,其空间位置使用空间哈希函数进行寻址。只有实际包含几何信息的体素块被实例化,并且相应的索引存储在线性化的空间哈希中。这种策略显著减少了内存消耗,并允许(理论上)无限大小的场景。与分层方法相比,其主要优势在于非常高效的数据插入和访问,其时间复杂度均为O(1)。
这种最小化的内存占用和高效的计算能力使得基于哈希的三维重建方法甚至可以在移动手机上应用,比如在Google Tango中使用的方法[DKSX17]。此外,它还可以轻松地将重建的部分流式输出到核外,以支持高分辨率和极快的运行时性能。Kahler等人[KPR∗15]采用了体素块哈希的概念,但使用了不同的哈希方法来减少哈希冲突的数量。此外,他们还提供了一种用于不规则网格的哈希方法,以便在不同的细节级别上捕捉场景的不同部分[KPVM16]。
2.4.2 基于点的表示方法
与基于体素的表示方法相反,采集到的深度图像可以直接存储和累积在基于点或基于曲面元素(surfel)的模型中。这种稀疏的基于点的策略被多种重建方法所使用。附加信息,如点的大小/半径、颜色或其他属性,可以作为每个点的属性进行存储。这种点云或曲面元素表示方法适用于需要高精度和细节的三维重建任务。点的大小是在预处理步骤(第2.2节)中计算的,它来自于对深度数据的投影获取,并且内在地支持模型的自适应分辨率。为了防止点云模型中的异常值累积,至少区分了两种点的状态,即稳定点和不稳定点。初始时,当点被加入模型时,它们是不稳定的。在被进一步的点云合并至少一定次数后,点会变得稳定(参见下文)。这个稳定化过程可能还包括与输入点的可靠性相关的进一步置信度分数。
将新的一组输入点云合并到模型中首先需要明确的点对应关系,即输入点云与模型点云之间的对应关系。因此,通过渲染索引图来确定每个输入点 p 的模型点邻域 N(p) ⊂ M。在索引图中,模型点的索引被渲染在图像平面上。为了获取邻域点,索引图以比输入点云更高的分辨率进行渲染。然后,使用与密集对应关系查找相同或非常相似的规则来确定最佳匹配的模型点;参见第2.3.2节。
如果用于可视化反馈,单个点的简单渲染会产生带有空洞的不完整图像。为了渲染稠密图像,通常会应用点喷洒技术 [RHHL02,WWLVG09,LKS∗17]。在这种方法中,每个3D点被投影为在2D图像上具有一定半径的圆,从而产生稠密的图像。
2.4.3 混合方法
Salas等人[SMGKD14]区分具有高曲率的(近乎)平面和非平面区域。平面区域被聚类和标记在模型中。同一聚类的点被强制共享相同的法线,从而固有地去噪累积的3D数据。该算法能够合并属于同一平面的不同聚类,从而在闭环情况下改进数据。非平面数据则被累积在基于点的模型中;参见第2.4.2节。
2.5 传感器不确定性的融合
Sofka等人 [SYS07]通过使用估计的变换和单个点对应的协方差矩阵来改善对应关系的搜索。观测到的不确定性被用来通过类似EM的方法改善对应关系和估计的变换。
Maier-Hein等人 [MHFdS∗12] 提出了一种考虑点位置中各向异性不确定性的ICP变体,使用马氏距离来计算。Lefloch等人 [LWK15] 将这种方法扩展到在线场景重建中,以解决各向异性传感器噪声的问题。他们在密集的对应搜索和累积阶段应用了双侧马氏距离。请参阅第2.3.2节和第2.4.2节。
2.6 自动三维重建
即使使用了先进的在线三维重建方法,完全数字化一个物体甚至整个场景的高质量重建过程仍然是耗时且繁琐的。要完整地重建一个物体,需要从大量不同的视角观察它,而要完全数字化一个整个场景,例如一个大客厅,用户必须在场景中移动以收集整个表面几何的深度样本。这个过程可能需要每次扫描几分钟的时间,而且在场景中选择的路径会影响扫描时间和重建质量。寻找最优的传感器路径是一个具有挑战性的问题,可以将其视为一个优化问题。自动扫描方法通过解决潜在的优化问题来自动化扫描过程,从而生成用于控制机器人系统的控制信号。最早的方法[KCF11,KRB∗12,WSL∗14,KRBS15]是基于可控机器人手臂的,它将物体放在深度相机前并移动物体进行数字化。自动扫描归结为一个视角规划问题,根据当前物体的部分重建结果,需要找到最佳的下一个扫描视角。
一些方法[KCF11,KRB∗12,KRBS15]旨在最小化覆盖整个物体所需的视角数量,而其他方法[WSL∗14]则专注于最大化重建质量。另一类方法旨在基于行驶机器人[CLKM15,XZY∗17]或飞行无人机[HBH∗11,BPH∗12,SBK∗13]来数字化完整的场景,例如公寓。在这些方法中,场景探索的速度必须在系统进行同时定位和地图构建的能力方面保持平衡,而底层的重建方法必须能够适应更大的环境。行驶机器人被限制在地面平面上,这简化了底层的路径规划问题,使其变成了一个二维问题。一般而言,这种系统无法到达场景的所有部分,导致重建结果不完整。为了解决这个问题,基于飞行无人机的自动扫描方法已经被提出。此时,底层的路径规划变成了一个完全的三维问题,因此更具挑战性。首次尝试甚至可以通过协作无人机来重建动态场景。
2.7 数据集
有几个数据集用于评估静态3D场景重建方法,主要的区别在于传感器数据的类型和提供的真实数据。在这里,我们关注用于评估RGB-D扫描方法的数据集。由Zhou等人[ZK13]和Glocker等人[GISC13]提供的数据集包含了RGB-D序列以及各自方法的相机姿态估计。相比之下,Sturm等人[SEE∗12]和Pomerleau等人[PMC∗11]提供了来自外部高精度运动捕捉系统的真实轨迹数据。此外,一些数据集包括分割掩模和物体标签[KAJS11,SF11,NSF12,SLX15],或者包含所获取对象的真实几何形状[WMS16]。SUN3D数据集[SLX15]提供了一个室内大型场景的数据库,这些场景是使用RGB-D扫描序列的结构运动重建而成的。Handa等人[HWMD14]基于两个使用POVRay光线追踪器[BC04]合成渲染的3D场景(客厅,办公室)创建了ICL-NUIM数据集。它们为这两个场景提供了真实的相机轨迹以及客厅场景的合成真实3D模型。
除了评估相机跟踪的准确性外,这还可以评估与真实3D模型相比的密集表面重建误差。增强版的ICL-NUIM数据集[CZK15b]通过添加四条额外的相机轨迹,其中包含多个闭环,模拟了一个逼真的手持RGB-D扫描序列。这些合成的RGB-D数据流是基于一个逼真的噪声模型生成的,模拟了商品RGB-D传感器在噪声特性、量化误差和镜头畸变方面的缺陷。他们还为办公室场景提供了一个密集的基于点的表面模型,可以评估表面重建的准确性。
最近,Bulczak等人[BLK18]提出了一种时间飞行(ToF)相机模拟器,它包括传感器噪声、多路径效应和其他真实世界的传感器误差。对于语义分类,我们已经看到了大量关于合成数据的工作,例如SceneNet [HPB∗15]或SUNCG [SYZ∗16],以及带有注释的真实世界数据,包括ScanNet [DCS∗17]和Matterport3D [CDF∗17]。关于大量RGB-D数据集的最新概述和分类可参考Firman的文章[Fir16]。
3. 捕捉动态场景
除了静态物体,许多自然环境中还包含动态物体,如密切互动的人群。获取能够以高质量捕捉非刚性表面运动的时间连贯重建是一个极具挑战性且不适定的问题,特别是在需要实时性能的情况下。然而,快速和稳健的解决方案在多个重要研究领域具有很大影响,并提供了关键的技术见解。动态场景重建的应用可以在视觉效果、计算机动画、人机交互、生物力学和医学等领域中找到。
最近,动态重建技术也在虚拟现实(VR)和增强现实(AR)的背景下得到应用。一个显著的最新例子是令人印象深刻的全息传送(Holoportation)[DKD∗16a,OERF∗16]系统,该系统可以在线重建动态场景,并实现增强现实中的全身远程存在。
3.1 动态物体的鲁棒性
处理动态场景的第一步是使重建方法对移动物体具有鲁棒性。在基于隐式有符号距离场(implicit signed distance fields)的体积融合方法中,例如KinectFusion [NDI∗11, IKH∗11],表面重建被限制在静态环境中。解决动态场景元素的一种方法是在ICP跟踪的投影数据关联过程中将其视为离群值,以避免破坏重建过程 [IKH∗11]。如果存在多个刚体物体,原则上可以使用多个独立的体积来跟踪和重建每个物体。使用基于surfels的表示方法可以更容易地处理动态前景物体,如Keller等人所示 [KLL∗13a]。使用基于surfels的表示方法可以更容易地处理动态前景物体,如Keller等人,(如图4)[KLL∗13a]。
Jaimez等人还将场景分类为静态和动态部分。其他方法[DF14]则假设预先扫描了静态环境的版本作为先验信息。然后,在线跟踪相机运动的同时,对场景的动态部分进行分割和单独重建。Co-Fusion方法[RA17]除了静态背景模型外,还能独立重建多个刚性运动的物体。
图4:首先对坐着的人进行重建,然后开始移动。这种非刚性的场景运动导致相机跟踪失败(顶部)。Keller等人的方法[KLL∗13a]基于场景动态计算前景分割(A),并将其排除在相机姿态估计之外(B)。这样即使场景的大部分区域在移动,也能实现稳健的相机跟踪(底部)。图片来源:[KLL∗13a]
3.2 动态重建的挑战
动态场景的重建在计算和算法上比静态场景的重建更具挑战性。对一般的非刚性变形场景进行建模需要比静态重建问题多出数个数量级的参数 [PRR03]。一般而言,寻找最优的变形是一个高维度且高度非凸的优化问题,很难解决,尤其是在实时性能是目标的情况下。
除了静态重建问题的许多挑战之外,动态重建问题存在无穷多的解决方案 [FNT∗11],这使得动态重建问题本质上是不适定的。即使对于一个非刚性变形场景存在一个静态的3D模板,例如通过刚性融合获得的模板,基于单个传感器估计非刚性运动仍然是一个非常具有挑战性的问题,因为每个时间点场景的一半以上都被遮挡。快速运动导致帧间差异较大,这使得跟踪变得困难,特别是对于高度可变形的物体 [LAGP09]。
如果无法预先获取模板,则需要同时恢复物体的运动和形状。这是一个本质上模糊的联合问题,因为观测结果的变化可以由这两个因素解释。虽然更加复杂,但无模板的方法 [BHLW12, TBW∗12, LLV∗12, CCS∗15, NFS15,IZN∗16, DKD∗16b, SBCI17, DKD∗16b, SBCI17] 在过去几年中取得了令人印象深刻的结果。
所有最先进的基于模板和无模板的动态重建技术的关键组成部分是一个稳健且快速的非刚性配准框架。
3.3 非刚性配准的基本原理
许多最近的方法依赖于N-ICP算法[LSP08,LAGP09,NFS15, GXW∗15,IZN∗16,DKD∗16a],而其他方法则直接针对底层的联合优化问题[ZNI∗14,SBCI17]。以下将详细介绍所采用的变形代理和能量函数的具体形式。
3.3.1 变形表示
适当选择变形表示方法非常重要,因为它对非刚性配准方法的算法设计的每个方面都有重要影响。目前,在最先进的方法中很少使用密集的基于网格的表示,尤其是在当前的在线方法中,因为这种表示会导致高维的优化问题。许多方法依赖于粗糙的变形代理 [LSP08, CZ09, LAGP09],这样可以将优化问题与底层3D模板网格的分辨率解耦。当前的方法在选择所采用的变形代理方面存在差异。
粗糙四面体化 一种常见的选择是使用模板模型的粗略尺度版本或粗略体积四面体化作为变形代理。这种表示在身体的离线非刚性跟踪中被广泛使用。最近,Zollhöfer等人提出了在基于单个RGB-D相机的实时可变形模板跟踪中使用粗略体积四面体化的方法。粗略的四面体化相对于初始详细的模板网格具有两个主要优势:它大大减少了底层优化问题的自由变量数量,从而实现了实时性能。另一个优点是模型内部的额外斯坦纳点可以通过保持局体积来稳定变形,并且可以更快地将残余能量传播到模型的遮挡部分。
规则体素网格 另一种常见选择是粗糙的规则体素网格(coarse regular volumetric grids),这在最近的一些最先进方法中被广泛使用 [SP86, CZ09, ZSGS12, IZN∗16, SBCI17]。该代理基于自由形变(free-form deformation)的思想,之前已经用于在线基于手柄的建模 [ZSGS12]。它具有基于粗糙四面体网格的代理所具有的所有优点。此外,其高度规则性导致良好的访问模式,并且可以在通用图形硬件上轻松并行化优化策略 [IZN∗16]。虽然大多数方法在每个网格单元格中存储完整的六自由度(6 DoF)变换,但一些最近的方法直接使用矢量场进行处理 [SBCI17]。
粗略变形图 目前在最新的方法中最常用的表示形式是Sumner等人引入的变形图(Deformation Graph),如图5所示。由于其简单性和通用性,在过去的几年中,在许多离线非刚性配准技术中广泛使用[LSP08,LAGP09,DFF13,DTF∗15,GXW∗15,GXW∗17]。最近,它也经常在在线非刚性重建方法中使用[NFS15,DKD∗16a,GXY∗17]。与其他变形代理相似,变形图将优化问题与底层的精细模板网格解耦。变形图的一个显著优点是其对底层网格形状的高适应性。
图5:Sumner等人提出的变形图(右侧)将计算复杂性与底层网格(左侧)解耦。变形图是离线和在线非刚性重建技术中最常用的变形代理。
3.3.2 数据拟合项
在文献中,过去几年中已经提出和使用了许多不同的数据拟合项。这些拟合项与静态重建问题中用于相机跟踪的拟合项非常相似,参见第2.3.2节。最近的方法采用了多个拟合项的组合。接下来,我们将讨论在实践中最常用的拟合项。
稀疏特征 稀疏约束(Sparse constraints)在许多方法中被使用,例如检测和匹配的颜色特征,这些已知的对应关系与在N-ICP迭代步骤中发现的近似对应关系相互补充,并且由于它们在复杂的能量空间中引导优化器,从而加快了收敛速度。此外,一组稀疏的对应匹配可以显著地帮助更好地实施闭环约束并稳定模型在切平面上的对齐。
密集几何约束 除了稀疏约束外,近期最先进的方法还广泛依赖于密集约束。这包括密集几何点对点对齐[LSP08, LAGP09, ZNI∗14, DTF∗15, GXW∗15, NFS15, IZN∗16, GXW∗17]和点对平面对齐[LAGP09, ZNI∗14, NFS15, IZN∗16, DKD∗16a, GXY∗17, GXW∗15, GXW∗17, GXY∗17]。这两个术语通常结合使用,以实现更高的跟踪精度。除了这些表面匹配约束,还可以使用附加的法线匹配[DTF∗15]和凸包约束[DKD∗16a]。其他方法使用点对TSDF(Truncated Signed Distance Function)对齐[DFF13]。这种约束的优势在于它不需要显式的对应关系搜索,因为优化器可以直接沿着目标表面的局部TSDF(截断有符号距离函数)梯度进行操作。甚至还展示了tsdf到tsdf的对齐[SBCI17]。关键思想是将源表面和目标表面表示为距离场,并直接对齐它们。
密集光度约束 密集光度约束是指在非刚性配准中使用颜色一致性假设来定义一个密集的光度项,以实现更好的切平面对齐。直接使用颜色进行光度配准存在问题,如果光照在时间上变化或物体发生大幅变形,会导致由于阴影效应而产生剧烈的外观变化。为了解决这个问题,Guo等人提出使用反射一致性来代替颜色一致性。他们的方法同时解决几何、运动、表面反射和入射光照,而不是直接使用颜色信息。近期的一些最先进的方法还包括密集的回归对应项。
3.3.3 正则化策略
动态重建问题受到严重的欠约束,因为存在无穷多个解来非刚性地对齐两个物体。因此,仅仅使用数据拟合项通常不足以唯一约束解决方案。为了解决歧义,提出了不同的正则化项,用于编码关于场景变形行为的先验假设。
线性变形 线性网格变形技术,例如薄板样条(Thin-Plate Splines)[Boo89],现在主要用于模型经过粗略匹配后的细节对齐任务[LAGP09, ZNI∗14]。由于线性技术对旋转处理能力较弱,因此目前在粗略模型对齐的最新技术中不常使用。
非线性变形 非线性正则化能量是当前离线和在线动态重建技术的事实标准,因为它们能够处理大的旋转变形。其中一种常见的正则化能量是尽可能保持刚性(as-rigid-as-possible)范式。它要求变形场在局部尽可能刚性,以防止模板几何形状的不必要拉伸和剪切。这种变形范式已经应用于实时基于模板的非刚性重建方法以及无模板的非刚性重建方法。
最常用的变形框架是嵌入变形(EmbeddedDeformation)[SSP07]。非线性变形是最近许多在线和离线动态重建方法中广泛使用的一种技术。其中一种常见的非线性变形框架是嵌入变形(Embedded Deformation)[SSP07]。该框架包含两个不同的组成部分:一个软约束用于强制局部刚性,另一个软约束用于强制变形场的空间平滑性。这与仅强制局部刚性的尽可能保持刚性范式 [SA07] 相对应。
最近,一种阻尼版本的Killing向量场(Killing Vector Fields)[BBSG10, SBCBG11, TSB16] 正则化项已应用于无模板在线表面重建问题[SBCI17]。Killing向量场约束变形在局部上具有等度量性(isometric)。局部等度量性也被[DKD∗16a]用作正则化约束。
3.4 准刚体物体的静态重建
静态场景重建系统的基本假设是整个扫描过程中场景保持完全静止。如果违反了这个假设,重建的三维模型将包含伪影或者方法将完全失败。即使对于静态场景,传感器校准误差可能导致显著的非刚性空间失真,使得捕获的深度图无法刚性对齐。允许小量残余的非刚性变形可以缓解这个问题。非刚性配准也被应用于手持扫描的在线环路闭合中。在许多实际情况下,完全静态的场景很难保证,例如对于动物或婴儿的3D重建,在扫描过程中它们无法保持静止。已经开发了许多方法,即使场景经历轻微的非刚性变形,也能实现高质量的静态重建3D模型。这对于使用普通深度传感器对人体进行数字化尤为重要。
3.5 动态场景的非刚性重建
在接下来的讨论中,我们将讨论重建动态场景运动的方法。我们首先介绍利用场景特定先验知识的方法,并重点介绍在较少约束的基于模板和无模板重建设置中的最新进展。在过去几年中,许多算法改进和数据并行计算能力的持续增长使得首次出现了能够处理一般场景的在线方法,详见表2。
表2:不需要强先验(如骨骼)的最新在线动态重建方法概述。
3.5.1 强场景先验
特殊目的的解决方案可以基于普通RGB-D相机实现对特定对象类别的高质量重建和跟踪。这些特殊目的的解决方案利用类别特定的知识和强先验信息来简化重建和跟踪问题。近年来,在面部重建和跟踪 [WBLP11, LYYB13, BWP13, TZN∗15, GZC∗16]、手部重建和跟踪 [IOA11, TST∗15, TBC∗16, TPT16] 以及整个身体重建和跟踪 [YLH∗12, HBB∗13, WSVT13, ZFYY14, BBLR15, YGX∗17] 方面取得了重大进展。Bogo等人 [BBLR15] 利用BlendSCAPE模型的扩展,从RGB-D序列中获得了移动人体的纹理详细全身重建。其他方法适用于一般的关节形状 [YY14, SNF15]。在具有这样强大先验信息的情况下,现在甚至可以以实时帧率解决许多这些问题 [WBLP11, LYYB13, TZN∗15, TST∗15, TBC∗16, TPT16, HBB∗13, YGX∗17]。例如,Thies等人 [TZN∗15] 可以以实时速率重建面部的身份、表情和入射光照 [TZN∗15]。他们使用参数化面部和混合形状表情模型来显著减少未知参数的数量。
3.5.2 通用可变形物体跟踪
非刚性ICP(Iterative Closest Point)最初在非刚性二维形状配准领域中被提出 [PRR03],后来也扩展到三维非刚性配准领域 [FNT∗11]。最早的方法用于将多个深度扫描 [BR04, BR07, ZMK13] 对准,以抵消由于相机校准不完美引起的非刚性畸变。最早能够跟踪复杂变形 [CZ09, LZW∗09, LSP08, LAGP09, GXW∗15, GXW∗17, XLC∗18] 的非刚性配准方法使用了形变代理(deformation proxies),将优化问题的维度与模型复杂度分离,但离线运行时间较长。许多最近用于鲁棒的离线模板跟踪的方法采用关键帧和鲁棒优化 [LAGP09, GXW∗15, GXW∗17, XLC∗18]。其他方法使用 `0-范数 [GXW∗15] 或鲁棒范数 [DKD∗16a] 来定义正则化目标。这允许在变形场中存在不连续性,这对于跟踪关节运动特别有优势。
在线对任意一般变形物体进行无需强先验知识的非刚性跟踪直到最近才实现。在这一领域中,首个能够以实时性能运行的方法是由Zollhöfer等人提出的基于模板的非刚性跟踪方法[ZNI∗14],见图6。该方法的输入是高质量的彩色和深度流,由自定义的RGB-D传感器捕获。在模板获取步骤之后,通过鲁棒优化[LSP08, Zac14a, ZNI∗14],实时跟踪非刚性物体运动,并以实时帧率进行处理。这得益于一种分层的从粗到细的GPU注册方法,利用了现代图形硬件的数据并行计算能力。与N-ICP方法不同,Zollhöfer等人[ZNI∗14]同时优化了最佳对应关系。尽管这种方法实现了对一般物体的实时跟踪,但需要提前获取模板网格。对于每个场景获取这样的模板是一个繁琐而耗时的过程,对于动物或小孩等不稳定的对象可能是不可行的。
图6:Zollhöfer等人[ZNI∗14]提出的第一个适用于一般物体的实时基于模板的跟踪方法。实时性能得益于一种新颖的分层粗到细的GPU优化策略。图片来源:[ZNI∗14]。
3.5.3 无模板可变形重建
如果无法事先获得对象的模板模型,就必须解决更具挑战性的联合几何和运动重建问题。将对象形状和运动进行可靠分离是一个本质上具有歧义的问题,因为其中任何一个都可以解释观察结果中的变化。许多离线方法将时间上的3D重建问题表述为一个4D时空优化问题。这些方法假设存在小的变形和小的帧间运动,以便使问题易于处理。最近,许多无模板方法已经被引入,利用了普通RGB-D传感器捕获的数据。Dou等人[DFF13]基于使用多个普通传感器的设置,重建了具有时间连贯性的非刚性运动。最近,这种方法被扩展为适用于单个RGB-D相机[DTF∗15]。
第一个能够以实时帧率处理无模板重建问题的方法是Newcombe等人提出的DynamicFusion方法[NFS15]。该方法基于一台普通深度相机(例如Microsoft Kinect),实现了目标几何形状和运动的联合重建。对于每个新的输入帧,首先从体积TSDF中提取出基于网格的规范模型表示。然后,使用基于变形图的模型到帧的N-ICP方法估计一个粗略的变形场。根据估计的变形场,可以将体积TSDF的体素非刚性地转换到输入深度图的空间,从而实现基于体积融合的TSDF更新[CL96, IKH∗11, NDI∗11]。
由于整合了多个表面采样点,重建结果的质量比单个深度帧要高,并且如果先前未观察到的物体部分首次可见,规范模型可以逐渐完整。DynamicFusion的扩展版VolumeDeform [IZN∗16](见图7)通过基于细粒度变形格的变形场参数化,而不是粗粒度变形图,从而实现更高的重建质量。为了实现实时帧率,该方法采用了分层粗粒度到细粒度的数据并行GPU优化策略。
此外,通过将稀疏特征匹配整合到对齐目标中,可以实现更稳健的跟踪。Zhang等人的方法[ZX18]结合了基于Sigmoid的迭代最近点方法的静态和动态场景组件的重建,解耦了相机和场景运动。输入序列被分割为静态和动态部分,分别以实时帧率进行重建。接下来,我们将描述这些基准方法的特定扩展,以提高鲁棒性和重建质量。
图7: 类似于Newcombe等人的DynamicFusion [NFS15],Innmann等人的VolumeDeform [IZN∗16]能够无模板地对一般动态场景进行非刚性重建。该变形场根据细粒度的变形格点进行参数化,而不是粗粒度的变形图。同时,稀疏特征匹配被整合到对齐目标中。图片来源:[IZN∗16]。
跟踪失败的稳健性 Dou等人最近提出的Fusion4D方法[DKD∗16a],也是令人印象深刻的全息传送[Holoportation]系统的基础,可以以实时帧率获取完整、时间连贯的变形场景模型。该方法基于复杂的多视角设置,包括8个组成部分,每个组成部分包括2个红外(IR)相机和1个彩色相机。此外,还使用了衍射光学元件和激光器在红外(IR)领域产生伪随机图案。深度是基于红外(IR)领域的立体匹配计算得出的,而投影的伪随机图案确保了纹理的可用性。这种方法的特殊之处在于采用了关键体积策略,使其对跟踪失败具有鲁棒性。与将参考体积固定为第一帧输入不同,该方法周期性地将参考体积重置为一个融合的局部数据体积,称为关键体积。
此外,该方法能够检测到跟踪失败,并根据输入数据自动刷新所有未对齐的体素。这使得该方法能够在具有挑战性的情况下保持高质量的重建,即使是在将非刚性跟踪器推至极限的情况下也能如此。参考体积的周期性重置还使得能够重建场景中的拓扑变化,参见图8。但是,这种方法的缺点是丢失了全局跟踪信息,这在某些类型的应用中可能是必要的,比如对场景进行时间上连贯的重新纹理处理。
Dou等人的方法[DDF∗17]实现了对任意非刚性场景的高速重建。其中一个关键要素是在输入和重建之间估计得到的密集三维对应场,该场利用了对谱嵌入的学习近似。这使得能够强大地处理快速场景运动。此外,还采用了向前和向后对准以更好地处理拓扑变化,并使用细节层来恢复细小尺度的细节,否则这些细节将会丢失。
图8:Dou等人提出的Fusion4D方法[DKD∗16a]是令人印象深刻的Holoportation [OERF∗16]系统的基础,通过定期重置参考体积,允许场景的拓扑变化。图片来源:[DKD∗16a]。
反射恒定性 Guo等人提出的方法[GXY∗17]采用基于密集反射恒定性的数据项,而不是竞争方法中使用的颜色恒定性假设,见图9。密集反射恒定性更好地处理光照变化,并在大范围的刚性和非刚性运动下实现更强大的跟踪能力。实现反射恒定性需要进行材质和光照估计,详细内容可参考第4节。
图9:Guo等人提出的方法[GXY∗17]采用了密集的反射一致性。这种方法更好地处理了光照变化,并在大变形情况下实现了稳健的跟踪。图片来源:[GXY∗17]。
快速运动和拓扑变化 最近提出的Slavcheva等人的KillingFusion方法通过水平集演化来解决非常快速的运动和拓扑变化问题,见图10。虽然大多数其他方法在跟踪中使用N-ICP算法的变体,需要在每个迭代步骤中提取基于网格的表示,但KillingFusion直接对编码输入和当前模型的两个TSDF进行对齐。这取代了先前方法中使用的表面提取步骤,并减轻了对显式对应搜索的需求。TSDF对准基于一个阻尼版本的近似Killing向量场[BBSG10,
SBCBG11, TSB16],用于将输入体积变形到当前重建结果。
在每个迭代步骤之后,计算得到的增量变换被应用于体积,然后进行体积重采样。这一步骤使得对拓扑变化的鲁棒处理成为可能。Dou等人提出的方法[DKD∗16a]通过关键帧策略处理拓扑变化。而最近提出的BodyFusion方法[YGX∗17]则使用一个关节骨架来定义变形场,而不是粗糙的一般变形图。由于关节骨架的参数化是低维的,跟踪问题得到了极大简化,并且该方法对于人类这种特殊情况下能产生更稳定的重建结果。
图10:Slavcheva等人的KillingFusion方法通过水平集演化解决非常快速运动和拓扑变化的问题。所使用的正则化能量基于近似Killing向量场的阻尼版本。图片取自[SBCI17]。
3.6 动态场景数据集
虽然存在许多基于普通RGB-D传感器评估静态3D重建的数据集(参见第2.7节),但针对普通非刚性表面跟踪和重建的数据集很少。目前,大多数公开可用的使用RGB-D传感器捕获的真实世界数据集没有提供几何上的真实值。对于基于模板的跟踪,Guo等人在他们的出版物中提供了几个序列。对于无模板重建,Innmann等人和Dou等人在他们的出版物中提供了几个序列。与其他方法的定量比较通常是在合成的RGB-D数据流上进行的。
为此,常常使用MIT数据集[VBMP08]。该数据集包含使用多视图捕获系统重建的多个复杂和大型人体运动序列。提供了多视图图像输入、相机标定和3D重建结果。这使得可以创建混合的实际/合成RGB-D数据流,提供实际颜色和基于多视图重建的合成深度(可选择使用模拟的传感器噪声)。使用多视图的3D重建结果可以作为评估密集表面重建误差的基准。另一个经常用于定量评估的高质量多视图数据集是来自Collet等人的数据集[CCS∗15]。考虑到近期在范围传感器技术方面的进展和动态实时3D重建系统的成功,缺乏一个具有可用基准真实世界RGB-D数据集留下了足够的空间进行进一步的发展。
4. 颜色和外观
除了对许多应用程序而言重要的物体和场景几何形状之外,表面颜色和整体外观信息在各种虚拟现实(VR)和增强现实(AR)应用中起着重要作用,并使用户能够以类似于真实世界的方式与虚拟模型进行交互。从捕获的图像数据中获取这种固有场景属性是非常具有挑战性的,虽然这个问题似乎与静态(参见第2节)和动态(参见第3节)三维重建密切相关,但它是一个相对独立的研究领域。大多数颜色纹理估计方法与静态重建紧密耦合,而基于RGB或RGB-D数据的材料获取技术主要关注对象和小型场景,并在图像空间解决该问题。然而,最近在静态[MFZ∗17,WWZ16]和动态[GXY∗17]重建方面的研究开始通过联合解决形状和外观信息的完整虚拟模型来连接这些领域。表3提供了利用RGB-D信息的最新外观重建方法的概述。接下来,我们将讨论与颜色和材料获取相关的具有挑战性的问题以及研究人员开发的令人印象深刻的解决方案。
3:利用RGB-D和IR数据的最新外观重建方法概述。
4.1彩色纹理
连续多个RGB图像中重建纯色信息一直是一个具有挑战性的任务。在最近先进的体积融合方法取得成功之后,大量的后续研究试图克服该系统的局限性,并以多种方式进行扩展。其中一条特定的研究线路是一致性色彩纹理的重建。
4.1.1 在线纹理重建
在一些研究中,对KinectFusion的融合过程进行了扩展,以覆盖颜色信息。Whelan等人 [WKJ∗15] 拒绝了在物体边界和入射角处可能导致伪影和不一致结果的样本。在随后的工作中 [WSMG∗16],他们估计了场景中光源的位置和方向,进一步拒绝了只包含镜面高光的融合样本。虽然这已经显著改善了纹理的视觉质量,但仍可能出现较大的伪影。大多数RGB-D相机通过根据当前可见的照明动态调整曝光时间来获取彩色图像。这样确保了当前视图的动态范围被忠实地映射和量化到相机的亮度范围上。简单地固定曝光时间不仅有时受到相机固件的限制或驱动程序的不支持,还可能很快导致图像中的像素和区域过曝或欠曝,因为整个可能的动态范围远远超出了仅使用每个颜色通道8位的精度来准确表示它。因此,研究人员开发了从具有不同曝光时间的低动态范围(LDR)图像中捕捉高动态范围(HDR)彩色纹理的技术。在预处理步骤中,通常会估计相机特定的响应曲线以线性化观察到的强度值。然后,估计连续帧之间的相对曝光时间,以获得HDR颜色[MBC13,LHZC16,APZV17]。最后,这些值以实时方式融合到关键帧[MBC13]或全局虚拟模型[LHZC16,APZV17]中。
4.1.2 离线纹理重建
在离线环境中,类似的思想被用于获得全局一致的纹理重建。最早的一种方法是由周等人[ZK14]提出的,他们通过最大化光度一致性来联合优化选定的关键帧的相机姿态和颜色(参见图11中间部分)。Narayan等人[NA15]使用了类似的技术,但仅考虑了关键帧的像素相关子集进行优化,并在边缘上添加了一个额外的平滑项。这些改进提高了结果的视觉质量,尤其减少了颜色渗透。黄等人[HDGN17]在周等人[ZK14]的工作基础上取得了实质性的改进。在计算场景的基本抽象后,首先通过补偿不同曝光和白平衡来纠正颜色值,然后通过优化基于密集光度、稀疏特征和基本关系约束的能量来对齐颜色值。最后,通过一种时间连贯的锐化操作获得了一致的纹理。张等人[ZCC16]还应用曝光补偿技术来重建一致的HDR彩色纹理,并展示了各种编辑应用。
Maier等人[MKC∗17]最近取得了引人注目的成果,他们共同优化相机位姿、存储在截断有符号距离场(TSDF)中的模型的几何和反射率,并针对相机的内参和畸变参数进行优化。一些研究人员通过当前的重建技术(参见第2节)首先获得场景的粗略3D模型,然后使用它作为全局参考,在光度一致性的约束下选择和融合关键帧,生成质量更高的精细模型(参见图11,右侧)。最近,Bi等人[BKR17]提出了一种基于补丁的优化方法,用于为扫描的物体生成高质量的纹理贴图。
图11:颜色积累和离线纹理生成:将体积混合 [NZIS13](左)与颜色映射优化 [ZK14](中)和纹理生成 [JJKL16](右)进行比较。图像取自 [JJKL16]。
4.2材质采集
在图像中观察到的颜色不仅取决于特定的物质属性,还取决于周围场景的照明。将材质反射性从最终渲染的图像中恢复出来的过程被称为反向渲染,这是一个高度不适定的问题。因此,Material Acquisition的中文意思可以理解为材质反向渲染或材质还原。
解决这个问题的最流行的方法被称为内在图像分解,最早由Barrow和Tenenbaum [BT78]提出。假设所有的材质主要都是Lambertian的,即它们的外观与视角方向无关,只取决于入射光的方向,那么得到的图像可以近似分解为两个部分:
4.2.1 数据拟合项
许多不同的数据拟合项被提出过。它们的共同之处在于它们将解决方案引导到定义的模型,而在我们的情景中就是内在图像分解。接下来,我们将讨论常见的选择。
内在图像分解 根据内在图像分解方程直接得到的拟合项中,最流行的是针对矢量值反射和阴影图像的最小二乘误差项[LBP∗12, GMLMG12]。在假设白色照明的情况下,阴影图像可以进一步约束和简化为只有标量值,从而减少了未知变量的数量[SYLJ13, KSSC14]。这两种策略需要额外的硬约束条件来确保反射率和阴影项都为非负。一个优雅的方法是在能量公式中直接将它们应用于对数空间中,这还具有将分量乘积转化为较简单求和的额外优势,并允许使用更高效的优化技术。这已经应用于最小二乘误差项的标量版本[MZRT16, MFZ∗17]和矢量值版本[SYJL11, LZT∗12, ZTD∗12, BM13]。最近,Bonneel等人提出了对对数反射率和阴影的梯度进行优化,这是对原始问题的另一种方便的重新表述。此外,根据观察到的颜色值的亮度自适应地加权每个样本的贡献进一步提高了鲁棒性,并减少了具有较少可靠颜色值的暗区域的影响[KGB14, MZRT16, MFZ∗17, CK13]。
基于块的优化 有些方法使用图像块来减少未知变量的数量,并直接在shading层上引入平滑性约束。沈等人[STL08]通过局部和非局部地将具有相似纹理的像素分组,并求解组内的反射强度。Garces等人[GMLMG12]根据色度对像素进行聚类,然后求解shading图像。在静态场景和相机的视频流上,Laffont等人[LB15]通过只允许shading图像的部分在时间上变化,直接将时间连贯性纳入拟合项中。
基于统计的方法 类似于基于补丁的技术,研究人员尝试在输入图像本身上创建形状和照明的统计信息[TFA05, TAF06],预捕捉训练数据[BM15],或使用形状和照明的混合体[BM13]。这些额外的信息可以用来进一步约束解决方案以符合观察到的统计结构。
阴影分解 许多研究工作都致力于进一步分解阴影层。Chen等人[CK13]通过标量值的直接和间接辐射层以及矢量值的光颜色层来建模矢量值的阴影图像。这样可以针对每个层定义平滑性先验,而不是整个阴影图像,并且可以独立地控制每个项对整个能量的影响。对于室外场景,Laffont等人[LBD13]采用类似的思路,使用两个层分别表示太阳和天空,以及一个层表示间接辐射。最著名的方法是使用球谐基础表示阴影,并通常考虑到二阶以强制全局平滑性并实现高效优化。虽然未知变量的维度可以降低到常数个照明系数,但阴影变化现在被编码在需要表面法线知识的基础函数中。对于RGB-D相机,可以方便地从深度图像估计法线,以提供额外所需的信息。在动态场景重建的背景下,Guo等人[GXY∗17]联合优化照明系数和相邻帧之间的观测运动,以改善运动估计的鲁棒性(参见图12)。在其他工作中,考虑了每个顶点系数以适应可能的空间变化的照明[HGW15]。最近,阴影也被建模为法线的二次函数,类似于二阶球谐函数[ZWZY17]。
图12:Guo等人的方法[GXY∗17]实时估计了一般非刚性变形场景的几何、运动、反射率和照明[GXY∗17]。图片取自[GXY∗17]。
4.2.2 正则化项
在考虑正则化先验项时,最常见的选择是基于Retinex理论 [LM71],该理论认为反射率通常是稀疏的,而遮蔽则是平滑的。因此,研究人员通常依赖于这些观察结果之一;然而,许多其他信息源也被考虑进来以进一步推进这个领域。
反射率稀疏性 通常情况下,只会观察到相对较少的不同材质,因此可以通过惩罚相邻像素之间的反射率变化来实现稀疏性。如果两个像素之间的材质发生变化,即图像梯度较大,则此项的贡献将非常大;因此,为了达到能量的最小值,反射率边缘将被平滑处理。因此,根据一个阈值化的梯度图像[L21M71, LZT∗12, ZTD∗12]对每个项进行加权,以允许反射率图像中的清晰边缘。相较于考虑梯度幅度,基于色度的权重被用于稳健地检测反射率边缘[SCH13, ZDI∗15, MZRT16, MFZ∗17]。
Shen等人[SCH13, SYJL11]将原始的Retinex权重扩展到考虑观察到的亮度值,并放宽了在暗区域的约束条件,因为在那些区域反射率的估计可能不太可靠,差异可能无法准确检测。Chen等人[CK13]结合了两种加权策略,以降低在这些问题区域中的正则化贡献,并获得清晰的边缘。最近,Kerl等人[KSSC14]利用时间飞行传感器额外提供的红外信息,根据估计的红外反射率应用权重。与通常选择使用反射率差异的平方欧氏范数相比,也使用了其他范数。
阴影平滑性 尽管反射率主要在材料之间变化,阴影则取决于表面几何和光照。它们通常都是平滑的,因此观察到阴影也变化缓慢且平滑。因此,邻近值之间的差异以最小二乘的方式进行惩罚 [ZTD∗12, CK13, BST∗14, HGW15, LB15]。与反射率稀疏性类似,许多方法在这个项中添加了额外的加权,以实现对先验的更精细控制。Meka等[MZRT16,MFZ∗17] 重新使用了他们的反射率权重,但颠倒了它们的贡献,以进一步加强反射率边缘的概念。Lee等人 [LZT∗12] 添加了一个非局部项,并使用法线信息以类似的方式对权重进行阈值处理,就像对反射率层一样。Bonneel等人 [BST∗14] 将色度视为反射率的近似,并根据它们对阴影梯度进行阈值处理。还使用了其他范数,例如考虑红外通道中估计的阴影的加权 ℓ1范数[KSSC14],以及与基于图像之间估计的光流的权重结合使用鲁棒的Tukey函数[KGB14]。Shen等人 [SYH13]通过使用拉普拉斯算子施加先验来获得二阶阴影平滑性。
色度先验 尽管在各自的层面上强制稀疏性和平滑性已经能够得到合理的结果,但间接光照等效应仍然可能导致与期望结果相差较大,尤其是在较暗的区域。因此,Meka等人
[MZRT16, MFZ∗17] 添加了一个额外的先验条件,强制要求明亮区域的反射率的色度接近于观察图像的色度。结合平滑性约束,这进一步提高了准确性。
反射率聚类先验 另一种常用的策略是通过软约束或硬约束进行聚类来实现反射率的稀疏性。Bi等人[BHY15]利用图像平坦化技术近似反射率,并将相似的值聚类在一起,以获得稀疏的材料标签集。然后,基于标签的约束求解内在图像分解。其他方法也进行聚类,但利用软约束来实现非局部稀疏性,可以是针对单个图像[ZTD∗12,MZRT16]或整个视频序列[BST∗14]。
反射率比例先验 Laffont等人[LBP* 12]提出了反射率比例的概念。关键观察是,只有在它们的阴影值相同的情况下,强度变化才可以通过不同的反射率值来解释。因此,反射率值之间的比例可以近似为强度的比例。这一方法被应用于估计一组图像的反射率。在计算像素对应关系以获得稳健的比率估计之后,定义了成对的先验项。
红外反射率耦合 大多数方法仅关注RGB-D图像或视频,而Kerl等人[KSAC14]则尝试使用能够提供额外平滑红外图像的飞行时间相机。红外通道的照明条件更受控制,因为传感器本身是唯一的光源,环境辐射可以忽略不计。他们首先估计红外反射率,然后直接将其与彩色版本耦合。这间接地强制了时间一致性,因为红外图像的曝光时间由相机固定。
时间一致性先验 最近,研究人员不仅尝试从单个图像中获取材质属性,还尝试从整个图像序列(即视频)中获取。针对这个问题,已经开发出了不同的策略,包括在相邻图像之间强制保持一致性[MZRT16,BST∗14,LBP∗12,KGB14],将先前解决方案的部分传播到当前帧 [YGL∗14],甚至在帧间和全局模型之间添加约束 [MFZ∗17]。
用户约束 用户提供的先验信息是另一个有价值的信息源。与通常受到经验和常见用例启发的其他先验相比,这些输入可以被视为准确的真实信息,因为人类在预测材料属性方面非常擅长。对于视频序列,这些先验通常会在时间上在帧之间传播,假设光流是已知的。用户输入的常见选择是在某些区域局部地强制保持恒定的阴影或反射率。此外,用户还可以通过一个固定照明笔刷来直接解决尺度模糊问题,该笔刷确定了一组阴影值的绝对数量。
4.2.3 逐点BRDF采集
到目前为止,所有讨论过的材质采集方法的基本假设是材料属性的漫反射成分是最重要的,并且在所有常见情况下占主导地位,而高光成分则次之。虽然对于大多数真实世界的材料,这种近似成立,但仍有许多其他材料迅速突破了这一假设,例如金属和各种抛光材料。对于这类物体,图像中观察到了强烈的高光和反射,导致在这些区域得出完全错误的估计结果。因此,为了处理这些情况,使用了更具表现力的模型,特别是空间变化的双向反射率分布函数(SV-BRDF)。
Knecht等人(Knecht et al.)提出了一种从RGB-D数据中估计SV-BRDF的技术。他们考虑了RGB-D数据以及从鱼眼镜头摄像机捕获的额外环境贴图,以从颜色观测中去除高光。利用这些清理过的数据,可以交互式地估计每个像素的漫反射SV-BRDF和每个聚类的镜面反射SV-BRDF。第一项将SV-BRDF估计与从RGB-D数据进行三维重建相结合的工作是由Wu和Zhou [WZ15]完成的。在第一步中,使用KinectFusion重建物体的形状,然后在之后估计其外观。利用镜面球通过环境图获取照明信息,并使用灰色标记物对捕获的RGB图像进行光度校准,他们能够通过Microsoft Kinect传感器交互式地重建物体的准确SV-BRDF。他们将具有相同材质的像素进行分组,并使用Ward模型[War92]估计每个聚类的SV-BRDF的镜面部分。利用Kinect的红外通道,通过将所有聚类样本融合在一起,类似于Curless和Levoy提出的体积融合技术[CL96],估计了Ward模型的镜面参数。
在随后的工作中,Wu等人[W+16]将他们的设计理念从交互式系统改变为更准确的离线方法。通过联合优化相机位姿、材质聚类、环境光照和空间变化的BRDF,他们能够获得比以前更高质量的结果。然而,这种方法无法在接近实时的情况下运行,并且需要预先知道整个视频序列。Lombardi和Nishino[LN16]还开发了另一种离线技术,可以同时解决光照、形状和反射率。Richter-Trummer等人 [RTKPS16] 提出了一个离线系统,首先估计重建模型的一致颜色纹理,然后将其分割成相似材质的补丁。基于这些补丁,估计低频环境光照和每个顶点的漫反射和镜面反射成分。对于从图像数据中获取材质的领域的详细概述,我们可以参考Weinmann等人的出色工作 [WLGK16]。
4.3 几何细化和法线
当捕获RGB-D图像时的主要观察是,对于大多数相机来说,深度图像是嘈杂的且质量较低,而RGB图像显示了许多细节并且只有很少的噪声。因此,人们花费了大量的精力提高深度图像的质量,使其达到RGB图像的水平,以改善重建算法的准确性。这个领域的开创性工作由Horn等人在[HB86]中提出,他们引入了从单个图像中估计物体几何形状的Shape-from-Shading (SfS)概念。通过恢复阴影,可以推断出法线和形状。因此,所讨论的技术与材料获取领域密切相关,可以在这两个领域中应用多个想法。
4.3.1 自然光照
在一些方法中,研究人员将采集自真实场景中完全无控制的自然光照图像作为主要研究对象。Haque等人(HCMG∗14)假设表面为Lambertian材质,并添加一阶法线平滑性和二阶Laplacian深度平滑性先验,以获得合理的结果。这与材质获取领域中的着色平滑性先验密切相关,其中假设着色变化与物体的形状类似,变化缓慢且平滑。在细化过程中,直接对形状进行约束,而不是依赖于着色。
有研究使用二次函数来参数化法线关于着色的关系[HLSK13]。Zhang等人(ZYY∗12)使用多光源设置,通过自适应的基于可见性的加权方案共同优化细化的深度和法线。其他低秩技术也已成功应用于强化着色的平滑性。这包括了Chatterjee等人提出的三阶亮度矩阵近似方法[CMG15]以及基于补丁的方法,它们对每个补丁应用低秩子空间约束[LRL14]。这两种方法都使用矩阵分解算法最终获得了细化的深度图像。类似于材质获取领域中的反射率比先验,Yu等人[YYTL13]考虑了每个聚类计算的比率,以添加进一步的正则化先验。最近,Zollhöfer等人[ZDI∗15]成功地对编码在截断有向距离场中的重建全局模型的几何形状进行了优化,得到了质量更高的细化版本。
然而,他们的方法需要准确的相机位姿信息。Maier等人[MKC∗17]通过联合优化相机位姿和表面几何来解决这些问题;然而,他们的方法仅适用于离线设置。
近年来,人们在加速细化算法以实现实时计算方面投入了大量努力。Wu等人[WZN∗14]提出的方法是首个达到这一高度期望目标的方法之一(参见图13)。他们以最小二乘的方式估计二阶球谐系数,然后通过在GPU上进行高度优化的求解器来细化深度图像。除了深度保真度项外,他们还通过对顶点施加二阶Laplacian约束和对细化后的深度图像帧应用时间先验来实现平滑性。基于这项工作,Or-El等人[OERW∗15]使用了扩展的着色模型,该模型还包括了稀疏镜面着色和互反射,以提高在问题区域的准确性和稳健性。
图13:Wu等人[WZN14]的方法对由一款RGB-D传感器捕获的实时深度流进行基于阴影的表面细化。图像来源:[WZN14]
4.3.2 红外照明
除了自然照明外,由于RGB-D传感器(尤其是飞行时间相机)的成功,红外信息也引起了越来越多的关注。所获得的红外图像在质量和噪声方面与它们的RGB变体相当,但光照条件通常更受控制,因为相机本身会向场景中发射光线。因此,可以更可靠地重建反射率和阴影信息,以指导细化过程。
Choe等人 [CPTSK14,CPTK17] 使用Lambertian项和涵盖间接光的图像范围环境项来建模阴影,并通过位移向量实时细化从深度图像中获得的顶点位置。最近,Or-El等人 [OEHW∗16] 使用高效的总变差技术拟合Phong反射模型 [Pho75],以覆盖会否定地影响细化过程并导致这些区域结果不正确的高光部分。
4.3.3 法线
与深度细化密切相关的还有图像中的法线估计领域。由于许多细化算法直接或间接地估计法线信息,因此仅估计法线的方法也可以用于细化。除了已讨论的算法外,尤其是基于学习的技术已被用于解决这个具有挑战性的问题。在最近的工作中,Richter等人[RR15]使用回归森林从单个RGB图像中预测法线,而不对通常在从形状中推断中利用的光照条件做出任何假设。Yoon等人[YCK∗16]也进行了类似的工作,他们使用未校准的红外数据训练了一个卷积神经网络(CNN)以获得精确的结果。
4.4 材料数据集
虽然有几个数据集可以用于评估静态3D重建(参见第2.7节),但对于材料获取,特别是对于内在图像分解,存在的数据集较少。对于BRDF获取,广泛使用的基准数据集包括MERL数据库[Mat03],其中包含100多个测量模型;CUReT数据库[DVGNK99],它还包含60多个测量的双向纹理函数(BTFs);以及KTH-TIPS数据库[CHM05,HCFE04],它是CUReT数据库的扩展。Weinmann等人[WGK14]合成了一个包含84种材料的BTF数据库,总共使用了22801个视角-光照配置进行测量。
该数据集还包含相应的表面几何信息。在内在图像分解领域,《MIT内在图像》数据集[GJAF09]提供了一个由漫反射阴影、反射率和镜面光层组成的物体外观数据库。在一些数据集中,使用众包方法为数千个图像的像素进行了相似反射率或阴影的注释[BBS14,KBSB17]。MPI Sintel数据集[BWSB12]提供了一组具有类似于真实世界图像统计特性的计算机生成图像。Ye等人[YGL∗14]通过使用恒定的漫反射着色器对3D模型进行渲染来创建合成图像数据。然而,大多数这些数据集只包含RGB信息,缺乏深度信息,因此只适用于不需要额外范围信息的部分方法。
一些研究人员尝试通过使用Barron和Malik [BM12]的方法生成的深度图像来扩展“MIT Intrinsic Images”数据集[GJAF09],从而生成伪合成的RGB-D基准数据。考虑到最近在范围传感器技术方面的进展和实时3D重建系统的成功,缺乏RGB-D,可能包括IR的外观基准数据集为进一步的发展留下了足够的空间。
5. 能量优化
许多目前讨论的技术通过优化能量泛函来解决相应的问题。通常,更复杂的优化问题使用的能量泛函由两个部分组成,即数据拟合项和正则化项。通常,这些能量项是基于非线性最小二乘目标建模的。这部分在不同的优化方法中处理方式相似。许多其他的目标函数,例如基于总变差或鲁棒核的函数,会极大地影响所选择的求解器,这意味着每个求解器只能处理特定的类别。接下来,我们将讨论最常见的策略。
5.1 非线性最小二乘优化
许多在线方法更喜欢使用迭代求解策略,因为这些方法可以在现代图形硬件上轻松并行化实现[ZSGS12,ZNI∗14,DKD∗16a,GXY∗17,MZRT16,MFZ∗17]。
得到的方程组是线性的,可以使用正规方程解决。Levenberg-Marquardt是Gauss-Newton的一种扩展,它自适应地在Gauss-Newton和Gradient Descent之间进行混合,以实现稳健的收敛性。
5.2 全变差
另一种越来越受欢迎的策略是使用凸优化来解决和规范高度具有挑战性的不适定问题。这种特定类型的能量函数具有以下形式:
将这样的问题从最小化形式重新表述为最大化任务是一种常见的解决方法。原始变量被对偶变量替代。这通常被称为对偶问题[ET99]。同时存在两种形式的混合,即所谓的原始-对偶问题。在这种情况下,引入了一个辅助变量,通过找到重构的能量函数的鞍点来与原始变量一起进行优化。在过去的二十年中,已经提出了多种算法来解决这个问题的其中一种形式,包括Chambolle和Pock提出的求解器[CP11],Split-Bregman方法[GO09],交替方向乘子法(ADMM)[Ess09,LM79],基于牛顿法的求解器[CGM99]等等。最近,总变差的概念还被扩展以实现更高阶的平滑性约束[BKP10]。
5.3 鲁棒优化
鲁棒优化经常用于模板基准的非刚性配准方法中过滤掉不良对应关系[LSP08, ZNI∗14],以及束调整[bundle adjustment]中[Zac14b, CZK15a]。其思想是使用鲁棒核函数代替 ℓ2范数来定义目标函数:
5.4 迭代重新加权最小二乘法
第一部分在每个迭代步骤中被视为常量,而第二部分则通常是最小二乘形式。因此,在每个迭代步骤中,可以使用标准的(非线性)最小二乘求解器来解决这个近似问题。
6. 挑战和未来工作
本文总结了近年来由普及的RGB-D传感器广泛可用性所带来的巨大科学进展。尽管取得了显著的进展,但在使用RGB-D相机进行三维重建的交互和在线应用中仍存在许多困难的挑战,需要未来的研究加以解决。
三维重建的几何方面 尽管在第2节中描述的核心系统设置非常成熟,但它们仍然远未达到理想状态。在没有先验知识的通用场景重建情况下,需要更高效的方法来进行几何清理、简化和抽象化。在我们的报告中,我们故意没有包括后处理方法,因为在使用RGB-D相机进行三维重建的上下文中,它们并不是很吸引人。因此,我们认为进一步研究存在重要的潜力和需求,因为更精细的几何抽象本质上将支持更好的数据压缩、场景补全和消除错误的几何形状。这将有助于弥补由于传感器噪声、有限分辨率和漂移导致的误差。由此产生的压缩还将支持更大场景的可扩展性,特别是对于在线方法。基于形状基元的几何抽象已经在静态3D模型和扫描简化的目的上进行了广泛研究。然而,将这些概念扩展到使用RGB-D相机进行无限制、连续和实时3D重建的更广泛背景下并不是一件简单的事情。后一种情况更加复杂,因为场景动态性可能需要撤销之前对特定几何结构的决策,例如,在形状发生变化时,需要将平面重新转换为体素/点云。在形状抽象的层面上高效处理这一问题仍然是一个重大挑战。
捕捉和建模动态性 场景动态的重建在最近的发展中取得了巨大的进展,如第3节所述。然而,现有的方法仍处于初级阶段,只能处理非常受限的场景类型。无论具体应用是什么,对快速运动的稳健处理在一般环境中仍然是不可行的。此外,现有的方法并不适用于处理困难的遮挡或自遮挡情况,甚至在场景中多个元素之间的松散交互也往往非常不实用。其中大部分方法都是为了重建单个或少数个可变形物体而设计的。即使是大多数离线方法在面对困难的变形和明显的拓扑变化时也会失效。在实时情况下处理这种情况是一个更大规模的挑战。
许多方法采用了某种形式的形状或变形模板,例如骨架、分段刚性形状模型或可变形表面,以处理动态形状捕捉。捕捉或预先设计这样的模板本身就是一个挑战。在实践中,这也是一个限制,因为几乎不可能为所有可想象的可变形实际物体实现模板的初始化。我们讨论的一些方法开始尝试同时构建模板和进行可变形跟踪。然而,它们只能成功地处理非常简单和缓慢移动和变形的形状。从多个RGB-D相机,更不用说单个RGB-D相机,实现对一般可变形场景的时空一致重建仍然是一个广泛存在的问题。因此,一种可以显著改进动态场景捕捉和建模的策略是积极学习更具表达性和适应性的变形模型。未来还需要新的策略来以比当前可能的更大的时间尺度和更精细的空间细节捕捉动态场景。
外观 正如在第4节中所描述的,关于三维外观的在线和交互式捕捉以及表示方面已经取得了突破性的发展。从简单的Lambertian颜色和纹理,通过(空间变化的)BRDF(双向反射分布函数)和其他散射模型,到光照估计,都有了重要的进展。这些发展使得我们能够更好地捕捉和呈现物体的三维外观特征,包括其颜色、纹理、材质以及反射/散射属性。这对于增强三维重建和渲染的真实感和逼真度具有重要意义,为视觉效果和虚拟现实等领域提供了更丰富、更精细的外观表示和模拟。然而,由于现实世界中的外观获取系统涉及到所有这些影响因素,导致底层问题极度不适定,很难得出更通用的解决方案。
尽管已经取得了一些在线结果,但它们仍然捕捉到了对真实世界的外观和光传输复杂性的简化近似。这表明我们仍然面临着许多挑战,需要进一步改进和研究,以实现更准确、更真实的外观捕捉和模拟。联合在线估计高质量材质和照明属性还有许多改进的空间,其中包括更适当的反射、散射和更详细、高频的照明模型。通过进一步改进这些方面,我们可以提高外观的真实感和细节,并更准确地模拟光的行为。这是一个仍然需要深入研究和发展的领域,以提高外观捕捉和渲染的质量。
高级重建 从更抽象的角度来看,现有的在线和交互式3D重建技术有潜力实现各种高级应用。然而,这需要在以下三个方面取得重大突破。(1)
需要开发更通用的场景重建方法,能够覆盖更广泛的应用场景。(2) 随着搭载RGB-D传感器的移动设备和智能手机的出现,并不意味着现有的3D重建解决方案可以在这些平台上使用。这主要是由于高度集成的RGB-D相机的空间和时间分辨率有限,以及移动处理器的计算能力受限所致。(3) 在几何、运动和外观方面对语义进行建模将极大地提高3D重建方法在许多其他应用领域的可部署性,包括娱乐、医疗保健和自主系统等领域。
新兴趋势和机器学习 虽然本文调查的主要重点不在于此,但基于机器学习的方法,特别是深度神经网络,是解决3D重建、非刚性跟踪和材料估计中的许多挑战的一个非常有前途的途径。最近,基于3D数据的深度学习取得了很大的进展,以至于很难详尽地涵盖所有的文献。我们将这个问题留给专门的综述论文来讨论。接下来,我们简要介绍一些方法,这些方法在本文中被认为在相关背景下最为重要。对于静态重建,可以使用深度卷积神经网络学习特征匹配[ZSN∗17],对于非刚性变形的形状,可以使用密集对应关系方法[WHC∗16]进行学习。完成单个对象的扫描[WSK∗15,DQN17]、RGB-D帧周围的环境[SYZ∗16]甚至完整场景的扫描[DRB∗17]是一个非常有前景和活跃的研究领域。
此外,许多方法不仅仅局限于纯粹的3D重建,还能推断出高级场景语义[SYZ∗16,DCS∗17,CDF∗17]。其他方法则学习了体积融合[RUBG17]来更好地处理传感器噪声,利用学习到的数据先验知识。近期,深度学习已被证明在点云数据上表现出色[QSMG16]。除了这些与几何相关的方法之外,机器学习也被应用于BRDF估计。通过从多个视点捕获的RGB-D数据,可以推断出对象的BRDF[KGT∗17]。最近,基于学习的方法已经展示了基于单个输入图像的BRDF估计[RRF∗16,GRR∗17,LCY∗17,LDPT17]。
7. 总结
自商用RGB-D相机问世以来,利用其进行在线和交互式3D重建已经取得了巨大的发展。自第一代Kinect问世以来,已经有1000多篇论文在这一领域发表,涵盖了各种各样的用例和应用,并且没有看到饱和的迹象。目前的发展涵盖了完整的重建流程,并在各个层面和中间步骤带来了创新,从RGB-D相机硬件到与日常生活的各个方面相关的高级应用。
这份最新技术报告对使用RGB-D相机进行3D重建的主要方面进行了汇总、评论、比较和批判性分析。从相对较为明确的静态场景重建问题开始,我们概述了基本原理,并展开了在这方面的各种研究和发展线路,逐步扩展到捕捉场景动态和外观,这些都是更加不明确的问题,需要更复杂的解决方案、表示和正则化技术。我们还研究了一些方法来解决具有挑战性、实际相关性强且明显不明确的问题,即如何结合形状、外观和光照进行捕捉。
我们相信,这份最新技术报告将以多种方式促进该领域的进一步发展。首先,尽管这份报告不能深入探讨所有技术细节,但它作为一个起点,为那些对3D重建领域新手的研究人员和应用工程师提供了帮助。其次,对于活跃在该领域的研究人员来说,它可以作为参考,让他们了解到与他们目前应用的方法可能不同的方法。最后,在与此报告的演示相结合的情况下,将于2018年在荷兰代尔夫特举行的Eurographics会议上,它将促进对未来方法和强大的3D重建工具箱的潜力的讨论。
文章转载自公众号:深蓝AI
