当前位置: 首页 > news >正文

自动驾驶之BEVDet

在这里插入图片描述
BEVDet 主要分为4个模块

1、图像视图编码器(Image-view Encoder):

就是一个图像特征提取的网络,由主干网络backbone + 颈部网络neck构成。经典主干网络比如resnet, SwinTransformer等。neck 有== FPN==, PAFPN 等。
例如输入环视图像,记作Tensor([bs, N, 3, H, W]),提取多尺度特征;其中bs = batch size,N = 环视图像的个数,H, W = 输入图像的宽和高。
经过编码器后输出特征为多尺度融合后的特征为:Tensor([bs,N,512,H / 16,W / 16])

2、视图变换器(View Transformer):

**视图转换是BEV的核心。目的就是如何从图像空间中提取BEV空间所需要的特征。**假如某个BEV格子所对应空间有个锥桶,那么这个格子里填充的一定是用来描述这个锥桶的特征值,而不是远方天空或红绿灯的特征值。主要有==前向投影(推)(深度分布)==和 ==反向投影(拉)(query)==两种方式。
BEVDet 采用类似LSS深度分布的方法,将带有深度的图像点云根据内外参数映射到车身坐标系下,最后沿着Z方向进行池化,生成BEV特征。作者将深度预测的默认范围扩展到 [1,60] 米,间隔为1.25 × r,其中r表示输出特征的分辨率。

3、BEV编码器(BEV Encoder):

在BEV空间下进行特征提取。类似图像空间的特征提取操作。进一步精炼出关键信息,特别是在BEV空间下定义的信息。比如大小、方向和速度,因为这些信息都是在BEV空间中定义的。BEV编码器的主干网络采用ResNet,颈部网络采用FPN-LSS。

4、检测头(Task-specific Head):*

在BEV空间输出特征图上,直接采用单阶段CenterPoint中的3D目标检测头,用于识别行人、车辆等障碍物的位置、大小、方向和速度等信息。


http://www.mrgr.cn/news/92416.html

相关文章:

  • Redis分布式缓存面试题
  • 鸿蒙OS特点对测试的影响
  • Vulhub靶机 Apache APISIX Dashboard RCE(CVE-2021-45232)(渗透测试详解)
  • 每日一题——字母异位词分组
  • 最好的Git实践指南(Windows/Linux双系统详解)
  • Javase 笔记(自用)
  • uniapp h5支付宝支付
  • C++学习之C概述、数据类型、进制转换与数据存储
  • 性能测试项目实战
  • MFC笔记:本专栏课件
  • WIn32 笔记:本专栏课件
  • Rust 驱动的 Python 工具革命:Ruff 和 uv 与传统工具的对比分
  • deepseek 学习资料整理
  • 从零开始用react + tailwindcs + express + mongodb实现一个聊天程序(三) 实现注册 登录接口
  • python面向对象
  • linux--多进程开发(5)--进程
  • ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
  • github 推送的常见问题以及解决
  • IP----访问服务器流程
  • 【蓝桥杯单片机】第十三届省赛第二场