
#优质创作者# PIXOR: 点云中三维目标的实时检测 原创
【本文正在参加优质创作者激励计划】
@[toc]
PIXOR: Real-time 3D Object Detection from Point Clouds
https://arxiv.org/abs/1902.06326
实验结果
PIXOR
PIXOR (OR
iented 3D object detection fromPIX
el-wise neural network predictions)
PIXOR的框架图如图1所示。
它使用鸟瞰图(BEV)表示来进行自动驾驶场景下的实时3D物体检测。
输入的BEV表示
首先定义了三维感兴趣区域的物理尺寸$L × W × H$。三维矩形空间中的三维点被离散化:每个单元的分辨率为$d_L × d_W × d_H$;每个单元格的值被编码为占用率(即,如果该单元格中存在点,则为1,否则为0),最终得到形状为$\frac{L}{d_L} × \frac{W}{d_W} × \frac{H}{d_H}$的三维张量。
然后,也以类似的方式对LIDAR点的反射率进行编码(实值归一化到[0,1]范围内)。唯一不同的是,对于反射率,设$d_H = H$。
最终的表示是3D 0-1张量和2D反射率图像的对堆叠组合,其形状为$\frac{L}{d_L} × \frac{W}{d_W} × (\frac{H}{d_H} + 1)$。
实验中,点云的感兴趣区域被设置为[$0,70]×[-40,40]$,并以0.1米的离散分辨率进行鸟瞰投影。高度范围设置为$[-2.5,1]$并将所有点分成35个切片,即切片大小为0.1米。还有一个反射率通道,所以输入表示的维数为$800×700×36$。
网络架构
#:残差块中的网络层数;/:下采样;×:上采样
图2中展示了PIXOR的网路架构。整个体系结构可以分为两个子网络:Backbone网络和Header网络。
Backbone网络用于输入BEV,输出它的特征表示。
Header网络则是一个多任务网络,包括对象识别(分类)和定位(回归)。分类分支输出1通道特征图,激活函数为sigmoid。回归分支输出无激活函数的6通道特征图。
PIXOR将每个对象参数化为一个定向边界框${θ, xc, yc, w, l}$,$θ$为方位角($[−π, π]$),$x_c, y_c$为对象的中心位置坐标和$w, l$为对象的长宽。
给定这样的参数化,回归分支中每个像素的位置$(px, py)$(如图3中的红色点)的表示是${cos(θ), sin(θ), dx, dy, w, l}$。
学习和推理
在分类输出$p$上使用交叉熵损失,在回归输出$q$上使用平滑的$l_1$损失。
分类损失是对输出图上所有位置进行计算的,而回归损失仅对正位置(非背景)计算。
BEV数据中有很大一部分属于背景,所以类别不均衡。因此,PIXOR采用focal loss来减少类别不均衡的影响。
在推理过程中,首先将BEV输入到网络中,得到1个通道的置信度得分和6个通道的几何信息。然后,将置信度于一定阈值的位置将几何信息解码为定向边界框并采用非最大值抑制法得到最终检测结果。
