基于视觉的驾驶员辅助系统:调研、分类和进展(下)

发布于 2023-9-26 11:04
浏览
0收藏

基于视觉的驾驶员辅助系统:调研、分类和进展(下) -汽车开发者社区

应用概况

A.现有的应用


基于视觉的ADAS应用在2000年代初首次开始大规模量产,发布了车道偏离预警(LDW)等系统。此后,基于视觉的ADAS领域得到快速发展。这是由于处理和成像硬件的巨大改进,以及汽车行业增加更多ADAS功能以增强安全性并提高市场品牌知名度所做的努力。随着相机被快速作为提高驾驶员能见度的标准设备(环视系统),这些传感器并行应用于ADAS应用是合乎逻辑的。


下面列出了一些已经建立的基于视觉的ADAS应用,以及前面两节中详细介绍的它们的分类和典型的视觉构建模块。这并不是所有视觉应用的完整列表,并且大多数解决方案以很多不同的方式开发。表格I中详细的分类假定应用能够使用被动、单目、独立相机系统,除非另有说明。车辆制造商为提供相同功能的ADAS系统使用不同的名称,由于很多功能具有多个名字,这会引起混淆。当在分类中包含环视时,这意味着应用能够运行在单个环视相机上或者使用全部四个环视相机。

基于视觉的驾驶员辅助系统:调研、分类和进展(下) -汽车开发者社区

B.新兴的应用


尽管上述现有的应用仍在进一步开发以提高鲁棒性、精确性和可用性,但是仍有很多新的ADAS应用正在开发中。这些新的驾驶员辅助系统通常需要结合现有的应用,再加上一些新开发的视觉功能以及与其它传感器技术的融合。在此,我们只讨论未来几年内将进入市场的很多ADAS应用中的一些应用。


自动泊车(AP):自动泊车系统已经在大量市场上销售了一段时间。这从自动水平泊车开始,然后发展到包括垂直泊车系统。这些系统现在正在从仅控制转向的半自动化类型演变到完全自动化类型。这些现在已经可用的全自动化系统允许驾驶员离开车辆并且通过遥控钥匙或者智能手机远程启动泊车操作。在这种情况下,驾驶员仍负责监控车辆周围的环境(任何时候),并且通过遥控钥匙或者智能手机上的失能开关控制泊车操作。它们适用于停车位已被定位和测量的场景,或者在受控环境(例如车库停车场)中,车辆能够安全地在有限距离和转向角的情况下探索前方环境。


泊车系统的下一步是使其真正实现自主,这将允许驾驶员离开车辆,在没有任何驾驶员输入的情况下在没有建图的环境中定位和泊车。除此之外,车辆应该能够离开库位并且安全地返回驾驶员身边。相机在未来的自动泊车系统中将发挥非常重要的作用,提供关于车辆周围环境的重要信息。这包括物体和可通行空间数据、停车位标记检测、行人检测等信息,以便与其它传感器技术融合。


交通堵塞辅助(TJA)/高速公路驾驶辅助(HDA):TJA和HDA是自动化系统,用于在驾驶情况下处理转向(横向控制)和加速(纵向控制)。这两种功能也能够用不同的名称来称呼,例如交通堵塞驾驶和高速公路驾驶,但是基本功能保持不变。这两种功能之间的区别在于车辆的速度和预期的驾驶情况。TJA适用于拥堵交通情况下的低速驾驶,而HDA适用于高速驾驶。由于这些是自动化系统,所以驾驶员应当监控驾驶情况,并且准备在短时间内完全接管车辆。一些系统监控驾驶员意识,作为系统功能的必要条件。如果系统识别到驾驶员没有集中注意力,接着它将警告驾驶员并且归还全部的控制权。这种监控的一个实例为确保驾驶员的手握住方向盘。


TJA和HDA结合以安全距离跟随前方车辆和车道保持这两种功能,所有这些功能都在速度限制内运行。TJA还负责车辆的停止和启动。最初,这两种功能的目标是在出入口受限的高速公路上运行。它们都以类似的方式运行,使用上述功能的组合,包括ACC、LK和TSR,以便控制车辆。传感器融合将被用于实现这些功能以确保鲁棒性、可用性和传感器冗余度。它们能够利用单目或者双目视觉系统。这将是市场上首个这样的系统,其中驾驶员将在驾驶情况下将控制权移交给ADAS系统,同时仍然监控它的运行。因此,这些功能将成为衡量公众对自动驾驶认知的重要一步,同时还提供有价值的使用统计数据。

自动驾驶-挑战和未来方向

A.挑战和其它线索


计算机视觉中的目标检测算法是反向问题的解决方案,因为它们从两维图像投影中恢复语义。由于光线、位姿、颜色和纹理的变化,所以目标建模是困难的。由于这些困难存在,因此机器学习已经成为主流。深度学习的最新趋势表明,没有物体先验知识的通用模型如何优于其它模型,尤其当数据集和物体数量很大时。特别地,一个汽车视觉系统有其独特的挑战。车辆上通常安装多个相机,车辆的每一侧各有一个相机协同工作。在V2V(车辆对车辆)系统中,不同汽车上的相机协同工作,形成一个多相机网络。安装在车辆上的相机在动态环境中移动,该环境中其它物体运动具有或者没有相关性。车辆周围的基础设施是未知的。广角鱼眼镜头被用于覆盖更大的区域,这会导致镜头畸变,从而打破基于针孔相机的典型几何模型。相机运动能够通过汽车的惯性传感器估计(方向盘转角和车轮转速)。


位置先验:汽车上的GPS提供了车辆的准确位置。位置能够被用作一种很强的先验,其提供有关场景中静态基础设施的信息。谷歌的街景就是这样一类服务,它能够提供场景基础设施的先验记录。连续下载这些数据可能会增加数据流量需求,也会增加功耗。因此,高精度地图的趋势是只传输关键信息,如道路边界、车道等,而不是整个场景。位置也能够根据不同国家或者甚至城市被用于调整模型和参数。最后,它可以用于实现云服务和安全硬实时系统之间的融合。由于视觉处理计算代价高昂,因此通常会将其转移到云端,特别是对于谷歌眼镜等增强现实应用。位置能够基于位置所在环境帮助自适应地发送重要的信息。


传感器融合:功能安全是ADAS系统的一个重要方面,需要使用额外的传感器来补充相机或者甚至增加冗余性以获取更可靠的估计。常用的传感器为超声、雷达、红外和激光雷达/TOF。超声传感器对于近场感知而言是低成本且鲁棒的,它们通常被用于自动泊车系统以避免近场碰撞。雷达适合于中远距离感知,并且已经广泛应用于ACC系统。红外在低光照场景中是有用的,以便基于热力图在黑暗中检测物体。激光雷达和TOF是深度传感器,用于估计对检测障碍物有用的三维信息。


B.一种通用的可扩展算法框架


动机:ADAS系统已经从LDW/PD这类简单的系统发展成TJA/HDA这类更复杂的系统。这导致了离散组件式算法的发展,这些算法被组合到一起以形成低/中/高端系统。从商业角度看,这必然单个模块的独立发展,其具有很少复用性和可扩展性。随着我们走向自动驾驶,将视角改为自上而下的建模方法是有益的。对于当代高端系统而言,具有这种视角也是很有用的,它有助于实现联合算法设计和复用。这有一些在算法流程不同阶段中的具体示例,以促进这种方法。卡尔曼滤波器通常用于平滑车道、行人、车辆等物体的观测。通常,它们是针对每个物体单独设计和调试的。所提出的框架鼓励联合建模,它能够更好地捕获常见的动态物体和相互之间作用。另一个例子为使用特征来建立运动估计的对应关系。常用的方法有Lucas-Kanade或者SIFT。CNNs(深度学习)最近在这些问题上表现良好,它们的计算代价高昂并且不是首选方法,但是当从大规模系统的角度来看时(CNN用于识别多个物体),它又是可行的方法。


输入:所提出框架中的输入对应于场景的物理属性。我们认为,它可以是原始传感器测量值,也可以从其它原始测量值估计得到。这是受到人类如何感知视觉语义所启发的,例如颜色信息是一种通过视杆细胞和视锥细胞获得的原始传感器测量,而运动和深度是在大脑中计算得到的。这与经典的方法不同,经典方法仅将图像作为输入,而深度/运动估计是算法流程的一部分。


颜色是最基本的输入,因为它由相机传感器精确测量。存在若干种颜色格式,如RGB、YUV、Lab和HSV。YUV(亮度/色度)是相机最常用的输出格式,对于很多算法,仅利用Y分量。由于分量的去关联性质,HSV通常被用于图像分析。


深度是测量到相机平面距离的另一种自然线索。精确的深度测量能够导致良好的物体分割。传统上,使用多视图方法,如SFM(来自单个相机)和双目相机,但是趋势是使用更精确且昂贵的三维传感器,如激光雷达或者TOF。在SFM(弱纹理区域)和激光雷达(有限分辨率和盲点)情况下,当深度测量值与颜色栅格对齐时,将会产生稀疏性。因此,通常使用时间聚集和插值技术。


运动也是一种有用的线索来基于物体的动态来分割物体。在静态物体的情况下,运动和估计是直接相关的,SFM使用运动估计来计算深度。运动是通过光流或者使用SIFT/SURF的特征匹配等方法来估计的。背景消除结合里程计也能够被用于分割移动物体。最终,输入为一组理想情况下具有相同分辨率的矩阵集合,但实际上可能不同,并且可能包含稀疏性。


输出:输出语义的最通用形式为一个简单的矩阵,其值对应于一个物体标签。有时,具有一个分层的标签是有用的,其中一个像素能够被标记为静态物体地面道路道路缺陷。从汽车场景的角度看,我们将输出分为三类——地平面物体、基础设施和动态物体。地平面物体具有很强的深度线索,并且能够使用精确的深度测量轻易地检测到。动态物体是最为关键的,因为它们是可移动的,并且对驾驶系统构成更高的风险,它们通常通过有监督学习方法进行学习。所有剩余的静态物体被分类为基础设施,其中一些物体需要被分类(如交通标志),但是大多数物体只需要被检测到而不需要分类。这些类别也与所涉及风险的严重程度相关,因此图3中用颜色编码。例如,地平面物体风险最小,因此颜色编码为绿色。

基于视觉的驾驶员辅助系统:调研、分类和进展(下) -汽车开发者社区

可扩展抽象框架:所提出框架的标准部分是典型的有监督和无监督分类方法。有监督分类器通常用于检测行人、车辆、交通标志等物体。在该算法中,通过提供正样本和负样本的数据集来学习模式识别模型。对于交通标志识别这类问题,这是可扩展的,其中有数以千计的对象,手动的特征设计将变得繁琐。经典的目标检测算法由特征提取步骤(HOG/LBP/Wavelets)和支持向量机(SVM)组成。大多数研究都着重于设计新特征和使用标准分类器。最近,深度学习中有这样一种趋势,即自动学习特征。随机森林是另一种主流的分类器,它在Microsoft Kinect中成功地用于位姿识别。无监督聚类方法基于像素的属性对其分组。在汽车场景的情况下,存在能够组合到一起的大型块状结构。深度极大地简化了聚类算法,因此将颜色和深度属性联合聚类到一起是非常重要的。主流的图像聚类方法为图切割和超像素分割。贪婪的一维遍历和合并方法在计算上是高效的,并且对于汽车场景是有效的。


环境中特定的标准(如道路几何、成像模型等)能够被建模成贝叶斯先验。例如,车道检测先验是其在地面上的位置、线性结构和与道路颜色的对比度。空间-时间图模型是框架的关键部分,它建模了对象之间的空间关系,并且还处理时间关联和动态物体,如语义分段的出现/消逝。路缘检测是一个很好的例子,其中空间图模型发挥了重要的作用,因为如果没有路缘与道路、草坪等的空间关系,其本身是无法很好地定义的。SLAM是一个示例,其在统计框架中从空间和时间上优化估计。尽管框架中的模块被证明是独立的,但是可能存在循环依赖性以降低计算复杂度。无监督聚类输出结果能够用于减少有监督分类器的ROI,并且时间一致性能够被用于使用空间-时间模型的状态来引导和优化其它模型。


直接轨迹优化:在最优控制领域中,机器人运动通常被建模为轨迹优化问题。自动驾驶可以纯粹视为基于局部观测线索的短期轨迹优化。直观上而言,汽车的驾驶员无法分类所有物体,并且随后做出决策如何操作车辆;相反,它是基于对环境和其它运动线索的近似推断,从中做出全局决策。从有监督分类问题角度看,标注是通过记录驾驶员对汽车的控制来提供的。在标注方面,这种方法是非常能扩展的,因为它能够被调试成一个特定的驾驶员和一个特定的位置。从这个角度看,该问题是一个直接的有监督学习问题,其中输出是对所需方向盘转角和刹车量的估计。目前有一些该方法的成功演示,例如Project Dave(http://www.cs.nyu.edu/ ~yann/research/dave/)和Deep driving(http://deepdriving.cs.princeton.edu/)。通过这种方法学习的模型是非常抽象的,并且可能很难解释。

总结

在本文中,我们为ITS社区描述了ADAS应用中计算机视觉领域的分类。我们讨论了在自动驾驶车辆商业开发中计算机视觉的一些当前和未来的用途。本文还提出一种用于视觉应用开发的可扩展框架。


基于视觉的ADAS是一个广泛且令人兴奋的领域,其面临很多挑战。反之,这又推动了计算机视觉理论的发展。计算机视觉是一个很容易使原型工作的研究领域,但是仍然很难获得可用于量产车辆的精确系统。五年前,自动驾驶似乎是不可能的,但是在谷歌演示了它们的无人驾驶汽车之后,已经在开发这项技术中取得快速进展和人们广泛的兴趣。大多数主要的汽车制造商都在推动某种形式的汽车自动化。视觉系统作为自动驾驶车辆的检测传感器和HMI的一部分发挥着重要作用,这使得相机成为一种很有吸引力的解决方案。随着汽车计算机视觉的需求增加以及图像分辨率的提高(目前标准为1百万像素),处理器的计算能力也大大提高了。最近的EyeQ4和Tegra X1等设备的处理能力比以前使用的设备(例如奥迪zFAS项目中使用的SOCs)高出10倍以上。即使在不久的将来无法实现全自动量产车辆,但是实现这一目标的动力正在推动视觉应用的鲁棒性、准确性和性能。


由于篇幅限制,本次调研的内容保持较高水准。作者正在进行一项更详细的调研,其中还包括基于视觉的ADAS开发的硬件和软件方面。算法能够与所涉及的硬件类型紧耦合,因此这是属于嵌入式视觉领域的原因。我们还涵盖了包含功能安全等的汽车软件开发过程。可扩展的统计框架将通过涵盖具体实例的更正式的统计建模和分析进行更详细处理。


文章转载自公众号:自动驾驶专栏

分类
收藏
回复
举报
回复
相关推荐