当前位置: 首页 > news >正文

【论文速看】DL最新进展20241104-自动驾驶、图像超分、目标检测

目录

    • 【自动驾驶】
    • 【图像超分】
    • 【目标检测】

【自动驾驶】

[2024] Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation

机构:NVIDIA

论文链接:https://arxiv.org/pdf/2406.06978

代码链接:https://github.com/NVlabs/Hydra-MDP

文中提出了Hydra-MDP,这是一种在师生模型中采用多个教师的新颖范式。这种方法利用来自人类和基于规则的教师的知识蒸馏来训练学生模型,该模型具有多头解码器,可以学习针对各种评估指标定制的多样化轨迹候选。借助基于规则的教师的知识,Hydra-MDP以端到端的方式学习环境如何影响规划,而不是依赖于不可微分的后处理。这种方法在Navsim挑战赛中取得了第一名,展示了在不同驾驶环境和条件下的显著泛化改进。

在这里插入图片描述

在这里插入图片描述

实验结果
在这里插入图片描述


【图像超分】

[CVPRW 2024] Multi-scale Attention Network for Single Image Super-Resolution

机构:南开大学

论文链接:https://arxiv.org/pdf/2209.14145

代码链接:https://github.com/icandle/MAN

卷积网络通过利用更大的感受野,可以在高级任务中与Transformer竞争。为了在超分辨率任务中释放ConvNet的潜力,文中提出了一种多尺度注意力网络(MAN),将经典的多尺度机制与新兴的大核注意力相结合。特别是,作者提出了多尺度大核注意力(MLKA)门控空间注意力单元(GSAU)。通过MLKA,使用多尺度和门控方案修改了大核注意力,以获得各种粒度级别的丰富注意力图,从而聚合全局和局部信息,避免潜在的块状伪影。GSAU集成了门控机制和空间注意力,去除了不必要的线性层并聚合了信息丰富的空间上下文。为了确认所设计的有效性,通过简单地堆叠不同数量的MLKA和GSAU来评估MAN的多种复杂性。实验结果表明,MAN可以与SwinIR相媲美,并在最先进的性能和计算量之间实现不同的权衡。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

实验结果

在这里插入图片描述


【目标检测】

[PAMI 2024] FeatAug-DETR: Enriching One-to-Many Matching for DETRs with Feature Augmentation

论文链接:https://arxiv.org/pdf/2303.01503

代码链接:https://github.com/rongyaofang/FeatAug-DETR

一对一匹配是DETR类目标检测框架中的一个重要设计。它使DETR能够进行端到端检测。然而,它也面临着缺乏正样本监督和收敛速度慢的挑战。一些最近的工作提出了一对多匹配机制来加速训练和提高检测性能。文中重新审视了这些方法,并以统一的形式建模它们,通过增强对象查询来实现一对多匹配。文中提出了两种方法,从不同的角度实现一对多匹配,即增强图像或图像特征。第一种方法是通过数据增强实现一对多匹配(简称DataAug-DETR)。它对图像进行空间变换,并在相同的训练批次中包含每个图像的多个增强版本。这种简单的增强策略已经实现了一对多匹配,并令人惊讶地提高了DETR的性能。第二种方法是通过特征增强实现一对多匹配(简称FeatAug-DETR)。与DataAug-DETR不同,它增强了图像特征而不是原始图像,并在相同的批次中包含多个增强特征以实现一对多匹配。FeatAug-DETR显著加快了DETR的训练速度,并提高了检测性能,同时保持了推理速度不变。作者在包括DAB-DETR、Deformable-DETR和H-Deformable-DETR在内的DETR变体上进行了广泛的实验,以评估所提出方法的有效性。在没有额外训练数据的情况下,FeatAug-DETR将Deformable-DETR [1] 的训练收敛周期缩短到24个epoch,并在COCO val2017数据集上使用Swin-L作为主干达到了58.3 AP

在这里插入图片描述

在这里插入图片描述

实验结果
在这里插入图片描述



http://www.mrgr.cn/news/65745.html

相关文章:

  • 曼切斯特编码原理以及FPGA实现
  • 《欢乐饭米粒儿9》第五期:用笑声诠释生活,让爱成为日常
  • 程序员日志之DNF手游1023版本活动补充
  • 操作系统(10) (并发(2)------基于软件/硬件/操作系统层面解决两个进程之间的临界区问题/抢占式/非抢占式内核)
  • 电通旗下VeryStar连摘Campaign 亚太科技MVP及鼎革奖两项大奖
  • 《分布式机器学习模式》:解锁云端分布式ML系统的实战宝典
  • Centos7.6离线安装软件
  • Flutter UI架构(3)
  • 2024年11月1日——世间轮回
  • Diffusion Model
  • Linux高阶——1103—修改屏蔽字信号到达及处理流程时序竞态问题
  • 论文翻译 | Evaluating the Robustness of Discrete Prompts
  • vulhub之phpmyadmin
  • DBA之路,始于足下
  • C++基础:测试
  • 使用Spring Boot搭建简单的web服务
  • 重大917该如何复习?难度大不大?重点是啥?
  • 解决缓存击穿的代码[最佳实践版]
  • PD取电快充协议芯片,XSP08Q在灯具中的应用
  • RT-Thread学习
  • 【Linux探索学习】第十弹——Linux工具篇(五):详解Linux 中 Git 工具的使用与相关知识点
  • 【无标题】基于SpringBoot的母婴商城的设计与实现
  • Java flnalize垃圾回收
  • 如何安装 Vue.js:适合不同场景的方案
  • 企业CRM选型必看:2024年最佳CRM系统排行
  • 实体(Entity)详解