本文主要大致介绍一种新的感知框架:BEV。
参考资料:自动驾驶中常聊的BEV感知到底是什么?,小白也能看懂的BEV感知技术(二)

什么是感知模块

以多种传感器的数据与高精度地图的信息为输入,经过一系列的计算和处理,对周围环境精确感知的系统,作用相当于人眼。其感知识别任务本质上是对物理世界进行3D几何重构,使计算机能够“认识”到物理世界中的实体和元素。

BEV的出现

随着车辆上搭载的传感器越来越多、越来越复杂,且安装位置、视角和数据格式不尽相同,因此,以统一的视角将来自不同传感器的多源信息进行数据整合,在统一的视图中表示特征变得至关重要。
BEV的英文全称为Bird’s-Eye-View,即鸟瞰视图,它模拟了从正上方垂直向下观看地球表面的效果,能够清晰地显示地形、建筑物、道路网络等地理要素之间的空间关系和布局。这种视图对于自动驾驶车辆而言至关重要,因为它简化了对周围环境的感知和理解。

BEV的特点

优势

  • 没有2D感知中常见的遮挡或缩放问题。识别有遮挡或交叉的车辆可以得到更好的解决。
  • 以这种形式表示对象或道路元素有利于后续模块(如规划、控制)的开发和部署。
  • 全局视野与统一坐标框架。将来自不同传感器(如摄像头、雷达、LiDAR)的数据转换到同一BEV坐标系下,使得所有感知信息在一个标准化的空间内融合和处理,增强了信息的一致性和可靠性。
  • 多任务处理与并行化。
  • 降低硬件成本与依赖。

不足

  • 深度感知精度的不确定性,依赖雷达等传感器
  • 传感器融合及校准难题
  • 环境感知局限
  • 动态环境适应性,实时处理动态变化的交通场景(如快速移动物体)对计算资源需求巨大,同时要求算法能快速响应和更新BEV视图
  • 环境因素

BEV的工作原理

  1. 传感器的数据获取:包括但不限于来自相机的RGB图像、深度图像,或激光雷达的点云数据等。
  2. 数据预处理:校正畸变、滤波、去除噪声等。
  3. BEV视角转换:技术关键
    大致可以分为两种方法:基于几何变换和基于网络变换。

    基于几何变换

     - 视觉类:估计深度(深度学习网络,多目视觉);结合内外参,通过三维空间几何变化  映射到BEV空间。
     - 激光雷达:点云数据已经是三维形式,可以直接通过坐标变换(旋转和平移)将点云数据转换到车辆坐标系下的BEV视图。这通常较为简单且精确,但涉及到大量的数据稀疏性和不规则性处理。
    

    基于网络变换

     - 端到端训练,从输入图像直接输出BEV空间下的特征图。
     - 特征提取结合深度估计信息,采用反投影到BEV空间中。
    
  4. 多模态数据融合
    各传感器获得的BEV视角数据进行融合,整合形成一个全面且精确的周围环境表示。通过结合不同传感器的优势互补缺失,例如雷达对于非可视条件下的探测能力,摄像头对于颜色和纹理的识别能力,激光雷达对于精准距离测量的能力。
  5. 特征提取与建模:利用深度学习模型(如Transformer或者CNN等)提取和构建环境特征图,用于识别和追踪路面、车辆、行人、交通标志等关键元素。
  6. 感知任务执行:目标检测、分类、轨迹预测等,从而让自动驾驶系统了解周围环境的状态,并据此做出决策。
  7. 端到端优化:最新的BEV感知技术如LSS(Lift, Splat, Shoot)或BEVFormer等,实现了端到端的训练,可以直接从原始传感器输入到BEV特征的生成,同时进行感知任务的学习和优化,提高了整个系统的效率和性能。

代表工作

视觉BEV

  • 基于几何变换:BEVDepth、Mono3D
  • 端到端:BEVFormer

激光BEV

融合BEV

融合的方式包括早期融合(数据级融合)、中期融合(特征级融合)和后期融合(决策级融合)等多种策略。