当前位置：首页 > news >正文

MOTR: End-to-End Multiple-Object Tracking with Transformer

news 2025/4/16 22:41:42

多目标跟踪MOTR: End-to-End Multiple-Object Tracking with TRansformer_目标跟踪_qq_1041357701-开放原子开发者工作坊
https://blog.csdn.net/ZauberC/article/details/124553241

简介：

时间：2021

会议：ECCV

作者：Fangao Zeng, Bin Dong, Yuang Zhang, Tiancai Wang,Xiangyu Zhang, and Yichen Wei

摘要：

扩展了 DETR并引入了 “track query” 来对整个视频中的跟踪实例进行建模

提出了 tracklet 感知标签分配来训练 track 查询和新生对象查询

创新点：

①提出MOTR 完全端到端的 MOT 框架，可以以联合方式隐式学习外观和位置差异

②将 MOT 表述为序列预测集的问题，从之前的隐藏状态生成跟踪查询，用于迭代更新和预测

③ 提出了一种新的标签分配策略TALA，用于训练跟踪查询和新出现对象查询

④提出 TAN ，通过聚合历史状态信息，增强了对长时间序列的建模能力

⑤提出了一种新的损失函数CAL，用于在训练过程中考虑整个视频序列

与DETR对比：

DETR：

针对于目标检测

对象查询与图像特征交互，通过DETR Decoder后输出边界框

一对一，每个对象查询一个边界框

object query只是对一个区域目标负责，并不具体到id级别

MOTR：

针对于多目标跟踪

通过DETR解码器迭代更新（Iterative Update）

每个track query代表一个跟踪的目标

MOTR：

总体工作流程：

原论文图示

用于视频流中多目标跟踪的MOTR流程：

视频流中有连续的帧 $T_{1},T_{2}....T_{i}$

对于第1帧 $T_{1}$ ：

①通过卷积神经网络（CNN）骨干网络和DETR编码器（Enc），用于提取每帧的图像特征， $T_{1}$ 帧的特征为 $f_{1}$

②用DETR提取到检测结果为detect query，记为 $q_{d}$ ， $q_{d}$ 仅包含该帧新出现的目标

③将 $f_{1}$ 和 $q_{d}$ 输入到Decoder中，产生原始的轨迹查询 $q_{ot^{1}}$

④ $q_{ot^{1}}$ 经过查询交互模块QIM后，变成track query $q_{t^{2}}$

⑤ $q_{ot^{1}}$ 用来预测生成最终的 $Y_{1}$ ，包含当前帧的全部信息

对于第i帧 $T_{i}$ ：

①CNN和可变形DETR编码器（Enc）提取每帧的图像特征， $T_{i}$ 帧的特征为 $f_{i}$

②接收 $T_{i-1}$ 帧QIM输出的 $q_{t^{i}}$ 并且与 $q_{d}$ 一同输入到Decoder，产生原始的轨迹查询 $q_{ot^{i}}$ ，而这个 $q_{ot^{i}}$ 会被输入到QIM中生成为下一帧参考的 $q_{t^{i+1}}$

③ $q_{ot^{i}}$ 用来预测生成最终的 $Y_{i}$ ，包含当前帧的全部信息

④进行完N帧的跟踪后，最终生成 $\left \{ \widehat{Y_{1}}, \widehat{Y_{2}},... \widehat{Y_{i}}\right \}$ ，利用GT $\left \{ \widehat{T_{1}}, \widehat{T_{2}},... \widehat{T_{i}}\right \}$ 和CAL进行优化

QIM和TALA：

QIM：

QIM 包括对象进入和退出机制以及时间聚合网络（TAN）

QIM相当于一个桥梁，其将上一帧的信息传递给下一帧

输入：Transformer隐状态+相应预测的分数

出入：

object entrance：保留高分数

object exit：删除低分数

TAN：

用于处理Transformer的隐状态并更新状态输出；增强时间关系建模并为跟踪对象提供上下文先验

通过聚合时间信息更新跟踪查询，为下一帧提供信息

输入为隐状态

TALA：

对于检测查询，我们将 DETR 中的分配策略修改为仅限当前帧新检测的目标；对于跟踪查询，设计了目标一致的分配策略，预测所有被跟踪的对象。

过程：

①Track Query初始化为空

②跟踪查询集动态更新，长度可变；检测到新对象，每个检测的对象都会产生一个跟踪查询加入Track Query

例如像第一帧中检测到object1和object2，就会产生跟踪查询加入到Track Query

例如object1和object3（新）的隐藏状态更新Track Query

③不被检测到的移除，例如像object2在第四帧消失，Track Query中就将其删除

公式：

对于第 $i$ 帧，检测查询的标签分配是通过检测查询和新出现对象之间的二分图匹配获得的

对于 $i>1$ (不是第一帧)，将上一帧跟踪对象和新出现对象的分配结果合并

CAL：

CAL 是整个视频序列的总体损失，按对象数量进行标准化

实验效果：

http://www.mrgr.cn/news/79894.html

相关文章：

PyQt5入门（四）--------下拉选择框控件（comboBox）

【Neo4J】neo4j docker容器下的备份与恢复

微信小程序web-view 嵌套h5界面实现文件预览效果

餐饮平台数仓建模案例

Spann3R：基于DUSt3R的密集捕获数据增量式重建方法

day11 性能测试（4）——Jmeter使用（黑马的完结，课程不全）直连数据库+逻辑控制器+定时器

分布式事物XA、BASE、TCC、SAGA、AT

解决 MyBatis 中空字符串与数字比较引发的条件判断错误

ubuntu 安装 docker详细教程

第十九章程序清单合集——Java语言程序设计进阶篇（黑皮书）

机器学习02-发展历史补充

负载均衡策略：L（P）策略；L(Max）；L(LDS)

[游戏开发] Unity中使用FlatBuffer

C语言：指针详解续

nuxt2.0性能优化 ant design vue 组件和图标按需引入

Maven 安装配置（详细教程）

Javafx.麦当劳点餐系统（Java简洁版）

畅游Diffusion数字人(12)：基于DiT架构的虚拟试衣技术

细说Flash存储芯片W25Q128FW和W25Q16BV

【蓝桥杯每日一题】重新排序