BEV
本文主要大致介绍一种新的感知框架:BEV。
参考资料:自动驾驶中常聊的BEV感知到底是什么?,小白也能看懂的BEV感知技术(二)
什么是感知模块
以多种传感器的数据与高精度地图的信息为输入,经过一系列的计算和处理,对周围环境精确感知的系统,作用相当于人眼。其感知识别任务本质上是对物理世界进行3D几何重构,使计算机能够“认识”到物理世界中的实体和元素。
BEV的出现
随着车辆上搭载的传感器越来越多、越来越复杂,且安装位置、视角和数据格式不尽相同,因此,以统一的视角将来自不同传感器的多源信息进行数据整合,在统一的视图中表示特征变得至关重要。
BEV的英文全称为Bird’s-Eye-View,即鸟瞰视图,它模拟了从正上方垂直向下观看地球表面的效果,能够清晰地显示地形、建筑物、道路网络等地理要素之间的空间关系和布局。这种视图对于自动驾驶车辆而言至关重要,因为它简化了对周围环境的感知和理解。
BEV的特点
优势
- 没有2D感知中常见的遮挡或缩放问题。识别有遮挡或交叉的车辆可以得到更好的解决。
- 以这种形式表示对象或道路元素有利于后续模块(如规划、控制)的开发和部署。
- 全局视野与统一坐标框架。将来自不同传感器(如摄像头、雷达、LiDAR)的数据转换到同一BEV坐标系下,使得所有感知信息在一个标准化的空间内融合和处理,增强了信息的一致性和可靠性。
- 多任务处理与并行化。
- 降低硬件成本与依赖。
不足
- 深度感知精度的不确定性,依赖雷达等传感器
- 传感器融合及校准难题
- 环境感知局限
- 动态环境适应性,实时处理动态变化的交通场景(如快速移动物体)对计算资源需求巨大,同时要求算法能快速响应和更新BEV视图
- 环境因素
BEV的工作原理
- 传感器的数据获取:包括但不限于来自相机的RGB图像、深度图像,或激光雷达的点云数据等。
- 数据预处理:校正畸变、滤波、去除噪声等。
- BEV视角转换:技术关键
大致可以分为两种方法:基于几何变换和基于网络变换。基于几何变换
- 视觉类:估计深度(深度学习网络,多目视觉);结合内外参,通过三维空间几何变化 映射到BEV空间。 - 激光雷达:点云数据已经是三维形式,可以直接通过坐标变换(旋转和平移)将点云数据转换到车辆坐标系下的BEV视图。这通常较为简单且精确,但涉及到大量的数据稀疏性和不规则性处理。
基于网络变换
- 端到端训练,从输入图像直接输出BEV空间下的特征图。 - 特征提取结合深度估计信息,采用反投影到BEV空间中。
- 多模态数据融合
各传感器获得的BEV视角数据进行融合,整合形成一个全面且精确的周围环境表示。通过结合不同传感器的优势互补缺失,例如雷达对于非可视条件下的探测能力,摄像头对于颜色和纹理的识别能力,激光雷达对于精准距离测量的能力。 - 特征提取与建模:利用深度学习模型(如Transformer或者CNN等)提取和构建环境特征图,用于识别和追踪路面、车辆、行人、交通标志等关键元素。
- 感知任务执行:目标检测、分类、轨迹预测等,从而让自动驾驶系统了解周围环境的状态,并据此做出决策。
- 端到端优化:最新的BEV感知技术如LSS(Lift, Splat, Shoot)或BEVFormer等,实现了端到端的训练,可以直接从原始传感器输入到BEV特征的生成,同时进行感知任务的学习和优化,提高了整个系统的效率和性能。
代表工作
视觉BEV
- 基于几何变换:BEVDepth、Mono3D
- 端到端:BEVFormer
激光BEV
融合BEV
融合的方式包括早期融合(数据级融合)、中期融合(特征级融合)和后期融合(决策级融合)等多种策略。
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.