Background

基于图Transformer的多目标跟踪研究

2225 字
12 分钟

引言#

背景介绍#

近年来,多目标跟踪(MOT)作为计算机视觉领域的一个重要研究方向,受到了广泛关注。传统的MOT方法(TBD范式)通常依赖于检测器和关联算法的结合,对于复杂场景,尤其是在复杂3D环境下的多目标跟踪,复杂的非线性运动的关联问题如果使用传统方法,有赖于人工设计的特征和启发式规则。同时,在这些场景中,基于Transformer的端到端的方法隐式处理关联过程,无法针对性的优化关联问题。而使用图结构来建模关联问题,能将复杂问题转化为一个图优化问题,通过深度学习的方法来显式优化关联过程,提升多目标跟踪的性能。

可学习的图结构#

可学习的图结构

如图就是使用图结构建模关联过程的示意图。我们将检测和轨迹都抽象为图中的节点,节点之间的边表示检测和轨迹之间、检测和检测之间的关联关系。在这一图结构中,我们可以通过学习节点和边的特征来捕捉复杂的关联关系,从而提升多目标跟踪的性能。

但是,这个图结构仍然存在一些问题:

  1. 轨迹节点的预测依赖 卡尔曼滤波器,面对更复杂的运动模式时,卡尔曼滤波器的线性假设可能不再适用,导致轨迹预测不准确。
  2. 图网络的设计较为简单,使用传统的 图神经网络 (GNN) 感受野有限,难以捕捉长距离的依赖关系,影响关联效果。
  3. 只保留最后k帧的节点信息,忽略了更长时间范围内的历史信息,可能导致关联错误。

3DMOTFormer方法#

基于图Transformer的改进方法#

针对上述问题,3DMOTFormer使用基于图Transformer的方法,并改进了图结构和节点表示:

  1. 使用动态图结构,动态添加、删除、更新节点,更好地适应目标的进入和离开场景。
  2. 引入图Transformer,利用自注意力机制捕捉长距离依赖关系,提升关联效果。

3DMOTFormer的图结构如图所示:

3DMOTFormer的图结构

将整个关联问题建模为一个三个相互作用的子图:

  1. 检测图:表示检测之间的相互关系。检测图的节点的初始特征由边界框的中心位置、尺寸、速度、偏航角、类别的one-hot编码和检测框的置信度拼接而成。
  2. 轨迹图:表示轨迹之间的相互关系。轨迹图的节点使用上一帧处理后的轨迹节点特征作为初始特征。
  3. 关联图:是一个二分图,通过关联边连接检测节点和轨迹节点。使用匀速假设预测位置差、尺寸差、偏航角差、帧间差和中心距作为关联边的初始特征。

其中检测和轨迹图的边隐式的表示节点之间的连接关系,而关联图的边则显式地表示检测和轨迹之间的关联关系。所有图的边都使用固定的阈值进行稀疏化处理,减少计算量。

图Transformer模块#

3DMOTFormer中的图Transformer模块主要是从下面两种注意力机制进行设计:

基于图的注意力机制

  1. 无边通道的图注意力机制:类似于传统的自注意力机制,计算节点之间的注意力权重,更新节点特征。这种注意力只是将边作为连接关系,通过边的存在与否来决定节点之间的信息传递,但没有利用边的特征信息。
  2. 有边通道的图注意力机制:在计算注意力权重时,考虑边的特征信息,使得节点之间的信息传递更加丰富和准确。这种注意力机制将边显式地纳入计算,能够更好地捕捉节点之间的复杂关系,提高图Transformer的表达能力。

3DMOTFormer的图Transformer模块

图Transformer模块由多个图注意力层堆叠而成。检测图与轨迹图仅利用边来定义节点间的邻接关系,以构建稀疏自注意力的计算范围;其边本身不携带可学习的特征表示,亦不在网络中显式更新。关联图作为轨迹与检测之间的二分图,其边不仅限定了匹配候选集,还被赋予显式的几何特征(如位置差、尺寸差、偏航角差等),并通过有边通道的图注意力机制进行多层特征更新。这种设计将轨迹和检测之间的关联关系显式地融入注意力计算过程,实现节点与关联边的联合建模、协同优化。

3DMOTFormer的整体架构#

3DMOTFormer的整体架构

3DMOTFormer的整体架构如图所示。首先,输入当前帧的检测结果和上一帧的轨迹节点特征,构建检测图、轨迹图和关联图。然后,将这些图输入到多个图Transformer模块中进行特征更新。最后,通过一个二分类器对关联边进行分类,判断检测和轨迹之间的关联关系,从而实现多目标跟踪。

特别地,匹配过程使用最后一层的关联边特征,通过多层感知机得到检测和轨迹之间的匹配分数。使用贪心算法:从置信度高的检测开始,依次与轨迹进行匹配,直到所有检测或轨迹都被匹配完毕。

ADA-Track#

在端到端方法中引入图结构#

3DMOTFormer通过单阶段的方法处理了多目标跟踪中的关联问题,但是,其中节点特征中只有位置、尺寸等几何信息,缺乏外观信息,将这一模块融入到端到端的检测和跟踪框架中,可以利用检测器提取的丰富外观特征,提升跟踪性能。

ADA-Track与TBA,TBD框架的对比

传统的基于Transformer多目标跟踪方法通常使用固定数量的轨迹查询,通过交叉注意力与图像特征交互,生成轨迹输出;匹配过程被隐式决定,无法直接访问或优化关联得分。而ADA-Track引入了专门的数据关联模块,匹配过程被明确建模为一个子任务,可通过调整损失函数进行优化。

ADA-Track的整体架构#

ADA-Track的整体架构

ADA-Track的核心思想是交替检测和关联。其解码器层由两个交替的模块组成:检测模块和关联模块。检测模块负责生成当前帧的检测结果,关联模块则负责将当前帧的检测结果与上一帧的轨迹进行关联,实现实现检测与关联的协同优化。

模块说明

检测模块

  • 在自注意力层,通过将检测查询和轨迹查询拼接在一起做自注意力操作,使得检测查询能够将轨迹查询作为先验信息,在对图像进行解码时更好地定位目标,轨迹查询也能利用检测查询的信息,从而提升检测性能。
  • 在查询与图像的交叉注意力层,将轨迹查询和检测查询一起作为查询,图像特征作为键和值进行交叉注意力操作,得到检测框和轨迹框的特征表示。

关联模块

  • 基于3DMOTFormer 中的边增强的图注意力机制 (该模块本质为动态二分图Transformer)
  • 但不同层之间的查询位置不同,为了确保不同层之间具有相同的图结构,此处使用了全连接图而非稀疏图

损失函数#

损失函数设计上,ADA-Track结合了检测损失和关联损失。检测损失用于优化检测模块的性能,而关联损失则用于优化关联模块的匹配效果。通过联合优化这两个损失函数,ADA-Track能够实现更准确的多目标跟踪。

L=t=1T(λclsLcls,Dt+λregLreg,Dt)+t=2T(λclsLcls,Tt+λregLreg,Tt+λassoLassot)\mathcal{L} = \sum_{t=1}^{T} (\lambda_{\text{cls}} \mathcal{L}_{\text{cls,D}}^t + \lambda_{\text{reg}} \mathcal{L}_{\text{reg,D}}^t) + \sum_{t=2}^{T} (\lambda_{\text{cls}} \mathcal{L}_{\text{cls,T}}^t + \lambda_{\text{reg}} \mathcal{L}_{\text{reg,T}}^t + \lambda_{\text{asso}} \mathcal{L}_{\text{asso}}^t)

其中,Lcls,Dt\mathcal{L}_{\text{cls,D}}^tLreg,Dt\mathcal{L}_{\text{reg,D}}^t 分别表示第t帧的检测分类损失和回归损失,Lcls,Tt\mathcal{L}_{\text{cls,T}}^tLreg,Tt\mathcal{L}_{\text{reg,T}}^t 分别表示第t帧的轨迹分类损失和回归损失,Lassot\mathcal{L}_{\text{asso}}^t 表示第t帧的关联损失,λcls\lambda_{\text{cls}}λreg\lambda_{\text{reg}}λasso\lambda_{\text{asso}} 是相应的权重系数。

基于图Transformer的多目标跟踪研究
https://rinne05.top/blog/research/graph-transfomer-for-mot/
作者
发布于
12/12/2025
许可协议
CC BY-NC-SA 4.0

主题设置

主题模式
主题色
透明度
模糊
© 2026 霖 采用 CC BY-NC-SA 4.0 许可 RSS
公安网安备案图标 公安网安备案号: 豫公网安备41040202000294号 ICP备案号: 豫ICP备2025156598号-1
输入以搜索...
通过 Fuse.js 搜索