#百人创作先锋团#自动驾驶(ADS)驱动的算力大爆炸

发布于 2023-1-11 16:18
浏览
0收藏

与瀚海宇宙的古老历史文明相比,人类文明只是刚开始起步而已。对比于 138 亿年的厚重,1 万年的时光,也许只是等同于一个人一生中 1/3 秒的时间记忆。

#百人创作先锋团#自动驾驶(ADS)驱动的算力大爆炸-汽车开发者社区

计算创造力与智能的重新定义

新世纪的计算创造力Computing Creativity(其经典案例包括最近的Alphafold跨百万物种超2亿蛋白质结构的成功预测,以及可以提供下棋写诗作画作曲能力的AI超大训练模型等等),为加速起步的氨基文明注入了一种全新的驱动力、想象力和生命力,引导人类在充满太多不确定性的探索中砥砺前行寻找未来方向,以中国为例,“硬科技”新概念几乎涵盖了所有的科技行业领域。与此同时,

在“算力为王”的时代,期望凭借局部地区的“算力霸权”估计已经很难垄断并阻止新一轮技术革命和产业革命的全球大爆发。


智能在科学史中到底该如何可定义可量化,如何为AI重新定义一个可计量的“新香农定理”是当前科技界的一个新挑战。我们在这里总结并引用一下于非教授最新的“智能简史-从大爆炸到元宇宙”一书,我们也许可以认为,如果将植物的共生与进化视为植物所具备的智能,智能也许也是所有自然现象的一种。“由于宇宙大爆炸下分布不均的成分带来了各种各样的差异,智能旨在通过调节梯度实现宇宙稳定,从物理、化学、生物到人类、机器甚至元宇宙。能量堆积下,结构以最快、最省力的过程迅速缓解不平衡,继而稳定形成了生命,而智能是缓解不平衡过程中形成的自然现象,链接起来就会形成一部宇宙文明的发展史。”


在人类文明演进的过程中,可以认为人类之间传递的不仅仅是信息,还有智能,对应到AI领域,于非教授认为这可以对应到数据和知识。当前行业AI化从平安城市走向智慧城市、智慧大脑和智慧出行 (其中包括ADS),智能应用的空间扩大,推动了AI从单体智能走向群体智能。所以智能也许可以深入定义成“

为多个个体间达成智能交换提供知识基础,可以进一步实现集体学习”。于此同时也正如于非教授所述的,我们对智能本质理解的局限也限制了当前AI的继续发展:以超强算力和超大数据为表征的的暴力美学,已经能够生产出若干超大的AI模型,例如1750亿个参数的GPT3, 1.6万亿个参数的Switch Transformer等。但训练这些超大模型消耗的电量如此之大,产生的二氧化碳当量,相当于一辆汽车行驶地球与月球之间距离的排放量;训练费如此之贵,两个模型训练加起来估计有百万美元左右。相比之下,人脑的工作功率约为20W,完全可以覆盖一个人日常的生活、学习与洞察。

从宇宙大爆炸到 ADS 算力大爆炸

当前ADS的技术演进依旧是海量数据驱动为主,多模感知预测规划控制算法很难针对复杂的驾驶场景进行准确建模与动态决策。人类的推理学习模式是两种的融合:从底往上推理(感知数据驱动建模)+由上往下推理(知识学习与认知期待驱动推理)。ADS算法学习与人类学习模式相差甚远,人类学习需要很小的数据集,可以进行关联学习或集体学习来快速适应新环境,而ADS很难做到这一点,所以当前的一个主流趋势是通过互联智能,通过V2V/V2I/V2X车路协同来提供分布式智能与智能共享,同时通过模仿学习、在线学习和持续学习来拉近AI与人类智能的距离,从而有效地模仿现实世界环境,提升响应速度,减少算法决策失误,保证交通安全。


正如欧盟发布的”100 Radical Innovation Breakthroughs for the future”报告里所述, ADS的挑战包括:


1. 传感器:现有传感器的局限性,需要我们寻找一种感知世界的新方法;

2. 感知决策:创造完全无人驾驶汽车的进程仍在继续,算法的多样性和安全决策问题,导致ADS的前景并不像最初认为的那样乐观。


但从长远来看,ADS成为常态后社会将发生范式转变,智慧出行和运输都将成为同类商品和服务。而对群体智能和AI领域来说,大算力演进可能会进一步导致无监督学习和一些具有初步形态的通用AGI出现,对超级智能系统的挑战则是如何在广泛的领域与环境中如何自我进化和超越人类的水平。


ADS算力大爆炸:对应于ADS传感器负载多样化和融合感知决策算法多样化的演进趋势,ADS的算力需求和芯片加速能力以(十倍速/每几年)的持续高增长态势呈现。


自动驾驶ADS主要是由高速场景向城市道路场景演进来落地领航辅助NOA功能,AI与场景的深度融合,推动ADS逐步实现从低速到高速,从载物到载人,从商用到民用,从阶段一提供L2高级辅助驾驶和L3拥堵高速公路副驾驶,发展到阶段二可以提供L3拥堵公路自动驾驶和L4高速公路自动驾驶,最终实现阶段三的L4城郊与市区自动驾驶和L5商用无人驾驶等等。ADS算法的典型系统分层架构如图 2所示,一般包括传感层,感知层,定位层,决策层(预测+规划)和控制层。每个层面会采用传统算法模型或者是与深度学习DNN模型相结合,从而在ADS全程驾驶中提供人类可以认可的高可靠和高安全性,以及在这个基础上提供最佳能耗比、最佳用车体验、和用户社交娱乐等基本功能。

#百人创作先锋团#自动驾驶(ADS)驱动的算力大爆炸-汽车开发者社区

图2 ADS 算法流水线案例(Mao, 2022)

ADS 多模融合感知

ADS 部署的传感器在极端恶劣场景(雨雪雾、低照度、高度遮挡、传感器部分失效、主动或被动场景攻击等)的影响程度是不一样的。所以传感器组合应用可以来解决单传感器的感知能力不足问题,常用的多模传感器包括 Camera (Front-View or Multiview; Mono or Stereo;LD or HD),毫米波 Radar (3D or 4D)和激光雷达 LIDAR(LD or HD)。ADS 的一个主要挑战是多模融合感知,即如何在感知层能够有效融合这三种传感器的输出,配合高清HD 地图或其它方式定位信息,对应用场景中的交通标识,动态目标属性(位置、速度、方向、高度、行为), 红绿灯状态,车道线,可驾驶区域,进行特征提取共享和多任务的目标检测或语义分割。


ADS驱动了算力大爆炸,ADS算法该如何演进?由于篇幅原因,本文在这里将重点研讨

ADS感知算法中最核心的单模和多模3D目标检测识别算法面临的挑战与出路。

目标检测:CNN vs Transformer

#百人创作先锋团#自动驾驶(ADS)驱动的算力大爆炸-汽车开发者社区

图3 Data-Efficient Detection Transformer 案例(Wang 2022)


目前大多数 AI 视觉感知任务,包括目标检测跟踪分类识别,场景语义分割和目标结构化,其算法流程都可以简单总结为

特征抽取,特征增强和特征融合,然后在特征空间进行(采样)重建, 最后进行多任务的各类检测识别与语义理解。对目标检测任务而言,一个主要的发展趋势,是从 CNN (Compute-bound)向 Transformer (memory-bound)演进。CNN 目标检测方法包括常用的Two-Stage Candidate-based 常规检测方法(Faster-RCNN)和 One-Stage Regression-based 快速检测方法(YOLO, SSD, RetinaNet, CentreNet) 。Transformer 目标检测方法包括 DETR, ViT, Swin Transformer, Detection Transformer (如图 3 所示)等等。两者之间的主要差别是目标感知场的尺寸,前者是局部视野,侧重目标纹理,后者是全局视野,从全局特征中进行学习,侧重目标形状。最先提出的 DETR 取得了比 Faster RCNN 更好的性能,但其收敛速度显著慢, 在小数据集上训练性能下降显著。如图 3 所示,最新的 Detection Transformer 模型对比了两种实现方式,发现一种有效数据机理来改善数据量有限情况下Transformer 面临的数据效率低下问题:


  • 从局部物体区域进行特征采样实现数据效率


  • 引入检测框的迭代更新和初始参考点


  • 采用稀疏特征采样来实现多尺度融合

3D 目标识别算法的技术挑战

ADS 目标检测跟踪算法,包括 2D or 3D 目标检测,3D 目标的优势是可以提供目标更多信息, 包括定位、速度、方向、类别等。对应的技术挑战和解决思路包括:


1)Domain Gap 问题:模型过拟合容易在新场景失效


a.可以在目标应用域采用自动生成的高质量的伪标签来实现无监督域自适应策略, 让模型在新场景数据上调优。


2)Hard Cases:遮挡,小目标等等


a.可以采用全局感知场,或者车路协同策略。


3)置信度问题:


a.可以添加贝叶斯网络层来更好估计和矫正结果的条件置信度,提供可靠性评估。


多模前融合可以来实现 ADS 的 3D 目标(Vehicle, Pedestrian, Animal, Cyclist, etc.)检测识别与跟踪, 最新的一些设计思路,可以简单分类成以下几种实现方式:


1)LiDAR baseline 的多模融合


a.LiDAR 数据表征:


i.Point-based:point cloud


ii.Grid-based: voxels, pillars, and BEV 特征图


iii.Point-Voxel-based: points, voxels


iv.Range-based: range (3D pixel distance)


b.问题与挑战:


i.几何变换与空间映射误差大,难以有效进行补偿与学习矫正


2)Camera-only 单目 3D 检测


3)统一BEV 空间下多任务多模融合

LiDAR baseline 的多模融合

LiDAR 映射空间的多模融合,其思路是将Camera (C)和Radar (R)数据映射到LiDAR (L)的数据表征空间。LiDAR+Camera 是非常常见的,除了点云数据表征空间也可以提供采样BEV 特征空间+ROI 层面进行融合实现。LiDAR 点云数据增强可以有效提升检测性能。目标跟踪算法在产品实现中针对目标 3D 点云特征和 2D 图像特征采用 Hungarian Algorithm 性能会优于传统的Kalman Filter 算法, 目标的ReID 高维与语义特征对跟踪的改善不明显而且计算复杂, 时空域广义块匹配(即同步考虑低可信度的遮挡目标)可能是产品化中一个非常不错的选择。Radar 对周围车辆检测准确率高,可以提供目标的速度信息,4D Radar 还可以提供目标高度的可靠信息但其稀疏特性说明不适合做小目标检测;大雨浓雾和暴风雪会产生接收信号强衰减和斑点噪声,总体对环境的适应性高。对比 Radar 而言,昂贵的 LiDAR 可以提供最准确的3D 测量信息,包括更高的角分辨率,每帧点云密度远高于 Radar。所以很多设计都以 LiDAR 做为一个基准传感器。从图 4 可以看出,这类产品部署实现的方式,可以分成如下几种模式:L+C; L+R, L+RC。

#百人创作先锋团#自动驾驶(ADS)驱动的算力大爆炸-汽车开发者社区

图4 LiDAR 映射空间的多模融合设计案例(Li, 2022)


L+C 这种设计思路,需要将 LiDAR 点云投射到 2D 图像平面来采样图像特征,然后再进行特征串联。L+R 需要将LiDAR 点云投射到Radar BEV 特征空间来采样特征,然后再进行特征串联。L+RC 是上述两种方式的综合。如图 5 和图 6 所示,整体来说,Point-wise 的设计案例还是低于期望收益值的,一个主要的原因是不同空间的几何投射会产生误差放大效应,另外虽然Radar 显示了对远距离目标的检测优势。但其发散噪声在复杂场景会带来严重的位置误差,其设计的挑战也非常大。统计表明,由于毫米波信号收发的 multi-path 多径干扰和 Specular Reflection 镜面反射,稀疏点云中会有 20%的比例属于 Outlier 异常分布,如何有效后处理需要慎重考虑。

#百人创作先锋团#自动驾驶(ADS)驱动的算力大爆炸-汽车开发者社区

图5 Point-wise 设计案例在NuScenes 测试集上的性能评估(Li, 2022)

#百人创作先锋团#自动驾驶(ADS)驱动的算力大爆炸-汽车开发者社区

图6 Point-wise 设计案例的问题分析(Li, 2022)


如图 7 所示,LiDAR 映射空间的多模融合,除了上述 Point-wise 融合方式,其它设计方式,例如 Point-BEV-based 融合,以及 BEV-based 融合,即通过 3D Conv. 主干网络进行矫正映射,这类设计案例除了增加了计算复杂度,整体也还是低于期望收益值的。

#百人创作先锋团#自动驾驶(ADS)驱动的算力大爆炸-汽车开发者社区

图7 LiDAR-based 设计案例在NuScenes 测试集上的性能评估(Li, 2022)

Camera-only 单目 3D 检测

摄像头一个最大的优势是低成本,可以提供场景的语义信息,但单目缺乏可靠的深度信息,基于单目的DL 深度预测也可能低于产品化需求,双目联合部署构建AVs 的 360°环视和前后远距覆盖可解决一部分的 3D 场景。纯视觉的单目 3D 目标检测,除了基于CNN 架构外, Transformer-based 也是一个可选设计思路,两者都可以学习 3D 几何信息。


如图 8 所示, 是DLA-Swin Transformer (DST)是Single-Stage 单目 3D 目标识别的应用案例,DST3D 可以利用Self-Attention 和全局信息来对 3D 特征点进行估计,通过目标比例自适应高斯核来构建 3D 特征点热力图,解决了Swin Transformer 对小目标,遮挡,和极端照明场景。Deep Layer Aggregation (DLA)的设计思路与上述CNN 对比Transformer 的结论比较接近,都是通过对语义和空间信息进行多尺度融合来解决数据有效性的问题挑战。DST3D 的性能远优于Image+Depth 的方案,也优于 3D CNN 方案,相对而言计算效率有几倍的提升。

#百人创作先锋团#自动驾驶(ADS)驱动的算力大爆炸-汽车开发者社区

图8 DST3D 案例的系统架构图(Wu, 2022)

统一 BEV 空间下多任务多模融合

#百人创作先锋团#自动驾驶(ADS)驱动的算力大爆炸-汽车开发者社区

图9 空间映射问题和多模融合的案例(Liu 2022)


为了提升AVs 的空时感知能力和安全特性,类似配置 29 个摄像头,6 个Radar 和 5 个LiDAR 的设计已经非常常见。如上所讨论的, Point-Level 融合的思路,对点云数据进行稠密增强,然后再融合摄像头语义特征,存在的问题是 Camera-to-LiDAR 映射会产生大的误差和破坏了语义特征的完整性(稀疏点云和稠密像素不匹配的问题),LiDAR-to-Camera 映射会产生严重的几何畸变(如图 9 所示)。如图 10 所示,BEVFusion 设计案例,是在统一的 BEV 特征空间来融合多模特征,从而有效保持目标的几何与语义特征,其带来的好处是不言而喻的,

一个统一的算法架构, task-agnostic 可以无缝支撑 ADS 产品系列中不同类型的传感器组合,可以有几倍的算法计算效率提升和非常有效的性能总提升,场景适应性也会有所改善


BEVFusion 设计案例带来的另外一个好处是能够有效实现(像素级特征,而不是目标级 Object-Centric or Geometric-Centric)特征提取增强融合后,其它视觉任务,包括场景语义分割等等,可以在特征重建阶段直接进行多任 务对接,充分体现了统一特征空间下特征共享对有效减少 ADS 感知层计算复杂度的优势。如图 10 所示,BEVFusion 对于LiDAR 和Camera 的BEV 特征没有对齐的问题(原因是View Transformer 中不准确的深度信息导致),采用了CONV-based BEV encoder 来学习补偿局部不对齐的问题。引入针对Camera 单目 3D 检测的有效学习设计思路都是可以用来继续改善BEVFusion 性能的。

#百人创作先锋团#自动驾驶(ADS)驱动的算力大爆炸-汽车开发者社区

图10 BEVFusion 多模融合和多任务设计案例(Liu 2022)


文章转载自公众号:汽车电子与软件

分类
标签
收藏
回复
举报
回复
相关推荐