#优质创作者# 单目视觉里程计的几何约束尺度估计 原创 精华

发布于 2023-4-13 13:43
浏览
0收藏

【本文正在参加优质创作者激励计划】

摘要

我们提出了一种用于单目视觉里程计的鲁棒几何约束尺度估计方法,该方法以相机高度为绝对参考。视觉里程计是机器人在未探索环境中自我定位和自主导航的重要模块。刻度恢复是单目视觉里程计不可或缺的要求,因为它可以补偿单个相机丢失的度量信息,并有助于减少刻度漂移。当摄像机高度被视为绝对参考时,比例恢复的精度取决于道路点选择和道路几何模型计算的准确性。然而,以前的大多数方法都是顺序地解决这两个问题,并且它们的道路点选择是基于道路的颜色模型或基于先验知识的固定区域。在本文中,我们建议将这两个问题组合并迭代求解。我们采用道路的几何模型而不是颜色模型来选择道路点。此外,所选择的道路特征点被用于估计道路模型,这限制了道路点的选择。详细地说,我们使用Delaunay三角剖分来分割我们的特征点,并基于深度一致性和道路模型一致性来选择道路点。在KITTI数据集上的实验表明,我们的方法在最先进的单目视觉里程计方法中取得了最好的性能

论文链接:https://ieeexplore.ieee.org/document/9479774/
代码链接:https://github.com/TimingSpace/MVOScaleRecovery

1. 介绍

视觉里程计(VO)是一种基于视频的移动机器人增量定位过程。增量定位连续观察机器人姿态的变化,并通过累积运动计算机器人的当前姿态。VO是机器人在未探索环境中自我定位和自主导航的重要模块,因为它不依赖于预先构建的地图或GPS参考图像数据库[1],[2]。特别是,单目视觉里程计(MVO)由于配备了最便宜、使用最广泛的传感器,并且最方便校准,因此在机器人界引起了很大的研究兴趣。同时,它不受固定基线长度的限制,可以广泛用于不同的场景。然而,当单眼相机将三维(3D)世界投影到二维(2D)平面空间时,它会丢失对象的深度信息和绝对比例。因此,MVO只能获得机器人运动的相对距离,而不能获得绝对距离。这种尺度模糊会累积尺度误差,称为尺度漂移。尺度模糊性和尺度漂移统称为尺度问题。

在事先了解安装的摄像机高度的情况下,MVO的准确性取决于相对尺度上的道路几何模型估计。许多方法[6]–[8]基于先验知识选择感兴趣区域(ROI),或自动将其确定为道路区域[9]。然而,基于ROI的方法有两个缺点。首先,无法保证所选区域始终是路面。其次,图像信息不能被充分利用。道路检测解决方案更合理,因为它从整个图像中提取特征。凭借深度学习令人印象深刻的性能,[10]中提出的分割方法和训练的分类器被用于检测道路。然而,这种类型的方法在计算上既不低成本,也不适合不熟悉的情况。此外,以前所有基于分类器的方法都关注道路的颜色信息,这对照明、阴影和材料都很敏感。因此,我们将颜色信息替换为道路点选择和道路几何约束。

本文是在我们之前发表的会议论文[12]的基础上发展而来的,其中包含了路点选择的新理论、与其他VO方法的更多组合,以及对每个模块的全面消融研究。我们建议迭代求解道路点选择和道路几何模型计算:我们考虑估计的道路几何模型来检测道路点,在此基础上在线更新道路几何模型。这两个问题可以相互促进。此外,对于路点选择,采用了新的解决方案。详细地说,我们利用Delaunay三角测量将图像分割成一组三角形,并将匹配的特征点作为顶点。通过考虑两个约束条件:深度和道路模型一致性,检查每个三角形以确定其是否属于道路区域。然后,我们通过随机样本一致性(RANSAC)[13]估计具有已验证道路点的几何道路模型,并通过使用中值滤波器去除尺度噪声。综上所述,我们工作的主要贡献如下:

1) 我们提出了一种基于地平面的鲁棒尺度估计方法,将道路点选择和道路几何模型计算结合到一个问题中:基于道路几何模型检测道路点,并基于检测到的道路点更新道路模型。
2) 我们结合Delaunay三角测量方法,提出了受深度一致性和道路模型一致性约束的新的道路点选择策略。
3) 该方法引入了MVO的精度,并且实现起来非常简单。我们的源代码是公开的。

本文的其余部分组织如下。相关工作见第二节。在第三节中,我们介绍了基于两个约束的路点选择算法。我们在KITTI基准上测试了所提出的方法,并在第四节中分析了实验结果。最后,第五节给出了结论和未来潜在工作的方向。

2. 相关工程

为了解决单眼视觉里程计中的尺度问题,近年来提出了各种方法。该方法可分为两类:相对标度校正和绝对标度恢复。前者致力于将自我运动保持在相同的尺度下,以保持全球一致性;后者使用给定的绝对度量基准来计算每个帧的真实尺度。

2.1 相对比例校正

相对标度校正方法主要包括BA[4]和LC检测。BA被公式化为一个非线性最小二乘问题,以产生联合优化的3D结构和相机姿态估计。Mouragon等人[14]首先在实时VO中使用BA,然后是并行跟踪和映射(PTAM)[15],这是定向FAST和旋转BRIEF同时定位和映射(ORBSLAM)[16]的主要动机。闭环可以通过考虑闭合轨迹中的姿态约束来减少尺度漂移。已经提出[17]单词袋(BoW)方法来表示关键帧。快速基于外观的映射(FAB-MAP)[18]是一种经典的位置识别方法,它使用Chow-Liu树[19]构建了BoW模型的视觉词汇表,以表达其特征似然性。然而,循环很少出现在真实的交通场景中,关键帧的选择严重影响了LC检测的准确性[20]。

2.2 绝对尺度恢复

绝对尺度恢复方法可以以已知的度量信息作为参考来补偿相对尺度校正的局限性,例如从深度学习中学习的安装相机高度和图像深度。
1) 相机高度约束方法:相机高度约束的方法之间的差异主要在于道路平面的检测和建模方法。许多方法[6]–[8]都将ROI作为道路。[7]中的单目大规模多核运动结构(MLM-SFM)方法是[21]和[22]的扩展,它假设图像的下三分之一的中间五分之一作为ROI。MLM-SFM提出了一种数据驱动机制,将多个线索组合在一个反映其每帧相对置信度的框架中,这显示出了良好的性能。然而,当所选区域被诸如汽车之类的物体打断时,基于ROI的方法无法工作,如KITTI数据集的序列07中发生的那样。
道路平面估计方法将确定哪些点属于道路,这显得更加合理。根据这些方法的特征点大小,可以将其分为稀疏[23]、半密集[24]、[25]和密集[26],以执行帧到帧的运动估计。描述符也可以通过视觉过程[27]来增强,或者从卷积神经网络(CNN)[28]、[29]中提取。除了特定特征点的方法外,组合提示方法也很流行。[30]的方法结合了来自密集和稀疏匹配点的线索,并使用分类器来检测基于各种特征的尺度异常值,这提高了对各种地面结构的鲁棒性。然而,它依赖于密集的功能,如果不使用GPU,就无法在移动嵌入式系统上轻松实现。我们的方法在不使用密集特征的情况下获得了有竞争力的结果。在道路点检测之后,一些[31]选择利用三角测量的稀疏地面点来计算高度,然后估计绝对尺度。传统上,三点RANSAC[32]用于实现稳健的平面拟合。在非传统方法中,[33]用顺序向后选择代替RANSAC,[34]用快速匹配方法对一组选定的点进行三角测量,这被称为高效的大规模立体[35]。
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区
2) 图像深度约束方法:最近,源于深度学习的MVO出现了一种流行趋势,它将从图像中估计的深度与细胞神经网络相结合。深度预测的准确性在很大程度上影响单眼SLAM中的特征跟踪误差。CNN-SLAM[36]通过部署深度神经网络的预测深度图来生成密集的3D图,从而扩展了大规模直接SLAM(LSD-SLAM)[24]。它在室内数据集[37],[38]中取得了有希望的结果,但当多个关键帧重叠时,预测的深度图无法优化,这使得重建和映射不那么精确。DVSO[39]使用与[40]类似的虚拟立体视图,将深度预测纳入几何单目里程计管道。Luo等人[41]将在线自适应深度与直接单眼SLAM相结合,以提高不同场景的深度预测精度。这些方法有望解决两个核心挑战:低地图完整性和尺度模糊性。
从连续帧进行深度估计比从单个图像进行深度估计更容易[42],[43]。[5]的方法从连续图像中提取密集的光流,并训练基于深度CNN的估计器来执行自运动估计。[44]中的新型监督系统根据估计的深度图计算平移比例,该深度图通过考虑两个连续图像和运动约束进行了改进。他们的网络是通过连接细胞神经网络和条件随机场来构建的,以细化深度图。除了估计单视图深度外,[45]还试图估计双视图光流作为另一个中间输出。最近,Xue等人[46]提出了一种利用密集法线进行道路检测的新方法,该方法在几何约束方面与我们的方法相似。
这些基于端到端深度学习的SLAM系统已经取得了令人印象深刻的性能;然而,所有这些都需要离线训练,这是耗时且计算昂贵的。此外,不能保证它们会推广到新的环境中。我们的系统可以在新的环境中工作,并使用低成本的硬件实现可比的性能。

3. 规模回收方法

在我们提出的方法中,在摄像机高度保持不变且地面局部平面的假设下,摄像机离路面的绝对高度被视为参考。所提出的MVO规模恢复算法的结构如图所示。1。初始自我运动(相对尺度上的R和t)和匹配特征由初始VO过程给出。道路模型估计模块计算安装的摄像机的相对高度,即从摄像机的光学中心到地平面的距离,以及经过验证的道路点。然后,可以通过比较给定的和计算的相机高度来确定比例因子。我们首先介绍了所提出方法的背景和符号,然后详细介绍了我们在道路模型计算中的路点选择算法。最后,我们使用RANSAC来计算相机的初始高度,并采用中值滤波器来减少噪声干扰。

3.1 背景和符号

MVO旨在获得相机在初始坐标系P0中的姿态Pt。帧It和It−1之间的相机运动以Pt=Pt−1T进行累积,以获得相机姿势,其中估计的运动T=[R,T;0,1]。帧It−1和It中的匹配特征点分别表示为Mt−1和Mt。
对于前两帧,最常见的解决方案是求解基本矩阵,因为特征点的3D坐标未知[47]:
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区
其中F=K−1T[t]×RK−1是基本矩阵。K=[fx,0,cx;0,fy,cy;0,0,1]是校准的相机固有参数矩阵,cx,cy是以像素为单位的光学中心,fx,fy是以像素为单位的焦距。[t] ×=[0,−t3,t2;t3,0,−t1;−t2,t1,0]是平移向量t的斜对称矩阵。在方程(1)中,首先求解基本矩阵F,然后通过分解F[48]得到R和t。如果平移运动矢量t乘以系数s∈R,则方程(1)仍然成立,
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区
因此,MVO可以保证在不同时间以相同比例计算出的相对平移矢量/t,但平移矢量t的绝对比例不能通过分解基本矩阵F来实现。
对于接下来的帧,在获得初始运动后,三角剖分方法计算出与/t处于同一比例的特征点“xi”的三维坐标。下一个相机姿势是使用透视-n点(PnP)方法[49],通过求解
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区
其中xi3是向量,xi的第三个元素。帧It中特征点i的2D像素坐标表示为ui=(ui,vi)。这种方法可以保持比例,但误差会累积。大多数方法,如直接稀疏里程计(DSO)[23]、大规模直接单目SLAM(LSD-SLAM)[24]、ORBSLAM[16]和半直接视觉里程计(SVO)[25],都试图通过BA和LC检测技术来对抗标度漂移,而不是考虑绝对标度计算。在不与IMU和GPS等其他传感器融合的情况下,恢复比例尺的一种方便方法是在周围环境中使用已知的绝对比例尺。使用环境中的度量信息l,我们根据其相对规模计算大小l,并通过s=l/l计算规模因子。根据方程t=s’t,将平移矢量计算为恢复的绝对值t。

在本文中,所有标量、向量和矩阵分别表示为普通字母(如s)、粗体小写字母(如t)和粗体大写字母(如R)。默认情况下,向量是按列的。矩阵R的第i行和第j列中的元素表示为Rij。上面有一个条的变量处于相对标度(例如,t)。特别是,我们将向量的斜对称矩阵表示为[*]×(例如,[t]×)。数学集合由希腊大写字母表示。例如,Ω是初始特征点集,算法3中验证的道路点集表示为Γ。
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区

3.2 道路模型计算

道路模型估计模块如图1所示。我们的道路点选择和道路几何模型计算是迭代执行的。他们可以相互受益。通过考虑道路几何模型来检测道路点;然后,通过所选择的3D道路特征点来更新道路几何模型。详细地说,我们建议在道路特征的初始选择中利用初始运动来粗略估计摄像机俯仰角。Delaunay三角测量[11]用于将具有已知三维坐标的特征点划分为多个三角形区域。随后,我们基于深度一致性拒绝道路异常值(算法1和2),并将验证的道路点标记为蓝色,如图所示。1。然后,在剩余的点上再次使用Delaunay三角测量,并且我们继续基于道路模型一致性来拒绝道路异常值(算法3)。已验证的道路点用绿色标记,如图1左下角所示。

为了澄清,基于深度一致性,我们在算法1中提出了直接删除,在算法2中提出了最大团选择和集成学习方法。算法3中描述了道路模型的一致性。
1) 基于深度一致性的特征选择:匹配特征点的3D坐标在初始VO过程后可用。它们保持着与真实比例下的坐标相同的几何结构。帧中的初始特征点集It表示为Ω={f0,f1。fn}。每个点的2D像素坐标为ui=(ui,vi),相对比例尺下的深度和3D坐标分别表示为?di和?xi。道路点选择方法基于ui和di。
首先,根据特征点在It帧中的二维投影坐标(ui,vi),通过Delaunay三角测量[11]将特征点划分为一系列三角形区域。如果特征点fi满足路面几何模型,那么它具有深度
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区
其中,“hi”是计算的摄像机高度。我们可以得出这样的结论:“di”1 vi。此外,对于路面上的任意两个特征点fi=(ui,vi,di)和fj=(uj,vj,dj),必须建立以下关系:
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区
如果σ>0,则至少有一个特征不属于道路,或者其深度di不正确。对于任何一种情况,我们都选择将其排除在外。然而,点fi或fj是否应该被删除是不确定的。我们提出了两种选择机制:如算法1所示的直接删除方法,以及如算法2所示的最大团方法和集成学习方法。
算法1是一种简单而直接的解决方案,它删除了不满足方程(5)的点fi和fj。此外,一个特征点可能存在于多个三角形中,这可能导致σ的重复计算。为了避免冲突,我们提出了另一种基于最大团和集成学习方法的特征点选择方法。如图6所示,2,将每个三角形视为一个最大集团,一个点可能存在于三个最大集团中。这一点的删除决定是由所有最大派系的投票决定的。
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区

4. 实验

我们在常用的基准KITTI数据集上评估了我们的VO规模恢复方法[50]。它由22个序列组成,覆盖城市、村庄、高速公路和其他环境,运行长度从数百米到几公里不等。其中,前11个序列提供了真实的运动轨迹。我们忽略序列01,因为大多数VO方法在这种高速场景中不能提供令人满意的初始结果。此外,我们的主要评估标准是相对姿态误差(RPE)[50]和绝对轨迹误差(A TE)[51]。RPE测量每个序列中每个固定距离段的R和t的平均相对误差。ATE计算t的绝对误差,这些度量可用于通过预处理相似性变换来评估尺度漂移消除性能[16]。我们用Python实现了我们的算法,并且源代码是公开的。所有实验都是在2.7 GHz的英特尔酷睿i5上使用单个线程进行的。
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区
我们的实验由三部分组成。首先,我们将我们的单目规模恢复方法与其他VO方法相结合,对其性能改进进行定量和定性测试。其次,将MonoVO2设置为我们的初始自我运动估计,我们将我们的方法与四种最先进的VO算法进行了比较。最后,对各个模块进行了性能分析和参数探索。

4.1 对现有单眼视觉里程计算法的改进

为了展示尺度恢复方法的性能,我们将尺度校正方法移植到三种开源的基于特征的定位算法中,包括ORB-SLAM2、LibVISO[34]和MonoVO,并将它们的性能与原始方法进行比较。
1) 对ORB-SLAM2的改进:我们将我们的方法与图3所示的ORB-SLAM1(无LC)进行了定性比较,将其与图4所示的MonoVO进行了比较,并将其与表I所示的ORB-SLAM2(有LC)进行定量比较。
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区
2) 对LibVISO2的改进:LibVISO2是一个用于视觉里程计的开源C++库。它提供了一种类似于我们的方法的基于局部平面地面和相机高度的简单尺度计算方法,并用本文中提出的尺度恢复算法代替它,以测试与单眼LibVISO2相比的改进。为了方便起见,本文使用pybind11将LibVISO2封装到Python库中。3如表II所示,通过将其与我们的规模恢复算法相结合,LibVISO2的性能大大提高。以序列00为例,加入我们的规模恢复算法后,RPE从9.77%下降到6.51%。改进在序列02、03、04和10中尤其明显。平均RPE从14.18%下降到7.11%。
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区
3) 对MonoVO的改进:MonoVO是一个基于OpenCV的简单开源MVO项目;它使用FAST描述符[52]提取特征,并使用光流跟踪它们。MonoVO确实提供了一种方便的五点运动估计,但它缺乏尺度计算。因此,我们将使用原始MonoVO和具有分散特征的MonoVO的尺度恢复算法来测试我们的方法在这种简单VO方法上的性能。表III和IV显示了对原始MonoVO的改进,该改进与我们的规模恢复算法(称为MonoVO SR)相结合。MonoVO SR优于原始MonoVO和MonoVO ROI,后者假设固定ROI为道路。以序列00为例,MonoVO和MonoVO ROI的RPE分别为36.44%和20.32%。加入我们的规模恢复算法后,它下降到了2.51%。改进是显著的,平均RPE从37.75%急剧下降到3.76% 。
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区

4.2 与其他视觉里程计算法的比较

我们将我们的标度恢复方法与散射MonoVO(ST MonoVO SR)相结合,并将其与[7]、[34]、[53]和[8]中四项最先进的视觉里程计工作在KITTI数据集的序列00和02-10上进行比较。如表V所示,我们的算法具有比其他单眼尺度恢复算法更低的平均误差,并且具有与LibVISO2立体声算法相当的平均误差。尽管Lee在[53]中的方法适用于序列01,这是一个高速场景,但它在其他序列上的表现比我们的差。ST MonoVO SR的结果为我们的方法的效果提供了有力的证据,因为MonoVO是一种非常简单的视觉气味方法,但所提出的规模恢复方法提高了其性能。
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区

4.3 每个模块的分析

在每个模块的消融研究中,我们只分析特征选择模块(基于深度和道路模型一致性)。具有分散特征的MonoVO提供了初始运动估计。关于RANSAC和滤波方法的消融研究,请参阅我们的会议论文[12]了解详细信息。选定的道路点受到两个规则的约束:深度一致性和道路模型一致性。我们在一些帧上对它们进行了定性测试,随后在KITTI数据集的十个序列上对它们做了定量测试。首先,我们用特征选择方法定性分析了KITTI数据集序列00上前500帧的分布,并计算了它们在纵轴上的分布,如图所示。5。经过特征过滤器后,道路附近的点的比例会增加。然后,选择KITTI序列00中的第10个单独帧(图6(a))和第20个帧(图第6(b)),以查看路点选择前后的特征分布。选择特征后,道路点的百分比将变得显著。此外,我们用不同的颜色可视化剩余的点,并且大多数选定的点(用黄色标记)都位于道路上。
#优质创作者# 单目视觉里程计的几何约束尺度估计-汽车开发者社区

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
1
收藏
回复
举报
回复
相关推荐