BEV | Welcome to xjc's blog

本文主要大致介绍一种新的感知框架：BEV。
参考资料：自动驾驶中常聊的BEV感知到底是什么？,小白也能看懂的BEV感知技术（二）

什么是感知模块

以多种传感器的数据与高精度地图的信息为输入，经过一系列的计算和处理，对周围环境精确感知的系统，作用相当于人眼。其感知识别任务本质上是对物理世界进行3D几何重构，使计算机能够“认识”到物理世界中的实体和元素。

BEV的出现

随着车辆上搭载的传感器越来越多、越来越复杂，且安装位置、视角和数据格式不尽相同，因此，以统一的视角将来自不同传感器的多源信息进行数据整合，在统一的视图中表示特征变得至关重要。
BEV的英文全称为Bird’s-Eye-View，即鸟瞰视图，它模拟了从正上方垂直向下观看地球表面的效果，能够清晰地显示地形、建筑物、道路网络等地理要素之间的空间关系和布局。这种视图对于自动驾驶车辆而言至关重要，因为它简化了对周围环境的感知和理解。

BEV的特点

优势

没有2D感知中常见的遮挡或缩放问题。识别有遮挡或交叉的车辆可以得到更好的解决。
以这种形式表示对象或道路元素有利于后续模块(如规划、控制)的开发和部署。
全局视野与统一坐标框架。将来自不同传感器（如摄像头、雷达、LiDAR）的数据转换到同一BEV坐标系下，使得所有感知信息在一个标准化的空间内融合和处理，增强了信息的一致性和可靠性。
多任务处理与并行化。
降低硬件成本与依赖。

不足

深度感知精度的不确定性，依赖雷达等传感器
传感器融合及校准难题
环境感知局限
动态环境适应性，实时处理动态变化的交通场景（如快速移动物体）对计算资源需求巨大，同时要求算法能快速响应和更新BEV视图
环境因素

BEV的工作原理

传感器的数据获取：包括但不限于来自相机的RGB图像、深度图像，或激光雷达的点云数据等。
数据预处理：校正畸变、滤波、去除噪声等。

BEV视角转换：技术关键
大致可以分为两种方法：基于几何变换和基于网络变换。

基于几何变换

 - 视觉类：估计深度（深度学习网络，多目视觉）；结合内外参，通过三维空间几何变化  映射到BEV空间。
 - 激光雷达：点云数据已经是三维形式，可以直接通过坐标变换（旋转和平移）将点云数据转换到车辆坐标系下的BEV视图。这通常较为简单且精确，但涉及到大量的数据稀疏性和不规则性处理。

基于网络变换

 - 端到端训练，从输入图像直接输出BEV空间下的特征图。
 - 特征提取结合深度估计信息，采用反投影到BEV空间中。

多模态数据融合
各传感器获得的BEV视角数据进行融合，整合形成一个全面且精确的周围环境表示。通过结合不同传感器的优势互补缺失，例如雷达对于非可视条件下的探测能力，摄像头对于颜色和纹理的识别能力，激光雷达对于精准距离测量的能力。
特征提取与建模：利用深度学习模型（如Transformer或者CNN等）提取和构建环境特征图，用于识别和追踪路面、车辆、行人、交通标志等关键元素。
感知任务执行：目标检测、分类、轨迹预测等，从而让自动驾驶系统了解周围环境的状态，并据此做出决策。
端到端优化：最新的BEV感知技术如LSS（Lift, Splat, Shoot）或BEVFormer等，实现了端到端的训练，可以直接从原始传感器输入到BEV特征的生成，同时进行感知任务的学习和优化，提高了整个系统的效率和性能。

代表工作

视觉BEV

基于几何变换：BEVDepth、Mono3D
端到端：BEVFormer

激光BEV

融合BEV

融合的方式包括早期融合（数据级融合）、中期融合（特征级融合）和后期融合（决策级融合）等多种策略。