AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection
AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection
- 介绍
- 自动驾驶中感知系统中,感知周围障碍物的3D形状和位姿是一个基本的任务
- Lidar expansive. 因此单目的3d物体检测很重要
- 单目方法中的主要挑战是获取准确的深度信息。有方法使用深度估计获取pseudo lidar 然后通过lidar detection方法获取3d物体的位姿,但是计算量大
- 直接方法:SMOKE 使用一个中心点来代表物体,因此忽视了详细的外观信息
- RTM3D 引入了8个关键点(3d 框的8个角点),但是这些关键点没有真实的环境意义并且对应的2d关键点随着相机的运动和自身pose改变变化剧烈
- 问题定义
- 姿态估计
- 估计物体的3D旋转和平移 $(\mathbf{R}, \mathbf{T})$
- learning-based 3D 物体检测
- 提出的方法
- 点级别的2D-3D约束
- 大部分情况下路面都是平的,因此角度从三个减少到一个,只保留yaw
- 通过关键点以及投影关系,运算得到解
- 2d关键点有的会被遮挡,采用输出一个score作为关键点的权重
- 手动标贵,因此使用之歌自动标注的pipeline来优化2D 3D的重投影误差
- 网络
- 使用DLS-34作为backbone,类似CenterNet是one stage的, 输入图像 W x H, 输出是原来的四分之一
- 物体中心branch
- classification 输出 $\frac{W}{4} \times \frac{H}{4} \times C$ where $C$ is the number of classes
- regression 输出 $\frac{W}{4} \times \frac{H}{4} \times 2$ 代表 x,y 的offset
- 物体dimension
- h,w,l : $\frac{W}{4} \times \frac{H}{4} \times 3$
- 不输出绝对尺寸,而是输出相对于每个class mean 尺寸的相对尺寸
- 2D 关键点
- 回归相对于中心点的offset : $\frac{W}{4} \times \frac{H}{4} \times 2n$
- 3D 关键点
- 回归相对于中心点的offset : $\frac{W}{4} \times \frac{H}{4} \times 3n$
- 物体旋转
- Multi-Bin baaed method [31], 8 bins, $\frac{W}{4} \times \frac{H}{4} \times 8$
- 关键点置信度 $\frac{W}{4} \times \frac{H}{4} \times 2n$
- 3D IOU score
- Loss函数
- 3D 形状 自动标注
- 采用一个3D可变性车辆模板可以通过调整参数来表示任意车辆形状,因此,3D shape标注过程可以被抽象为一个优化问题,找到一个shape参数能最优fit视觉观察(2d mask, 3d box, 3d lidar points)
- 使用一组PCA basis作为模板
- 获取标注数据,2d mask, 3d box 和 3d lidar points,对于3d lidar points使用ransac移除地面点
- 已有的benchmark只提供yaw角,实验发现另外两个角度可以大幅度提高标注结果
- 2d loss: mask distance,像素级插值
- 3d loss: 对每一个点找到最近的点然后计算距离
- 使用梯度下降进行优化
- 实验结果