Towards Real-Time Multi _模型

论文链接：
代码链接：
翻译链接：
文章目录分析：为什么该模型效率优于其他模型？环境搭建与实验复现参考
摘要
现在的MOT系统通常使用-by-的方式。这种方式有以下两个部件：1）用于目标定位的检测模型， 2）用于数据关联(data )的外观嵌入模型(model) 。两个模型分开执行可能会导致效率问题，其运行时间只是简单的将两个结构的运行时间加起来，而没有去探究它们之间可能某些结构可以共享的潜在可能性。现有的实时MOT的方法主要研究 step ，所以这些方法事实上只是实时 model而不是实时MOT系统。在本文中，我们提出了一个将目标检测和外观嵌入共享结构学习的MOT模型。具体而言，我们将外观嵌入模型合并到-shot 中，以便该模型可以同时输出检测结果和相应的嵌入。因此，该系统被转化为一个多任务的学习问题：存在多个学习目标，即，， bbox ， ,以及各个损失的自动权重。
算法介绍现有MOT出现的问题
现在的MOT系统通常使用-by-的方式。这种方式分为两部分：
用于目标定位的检测模型用于数据关联(data )的外观嵌入模型(model) 。
一般MOT的结构使得它具有以下缺陷：
解决方案
作者在论文中提到通过单个深度网络联合学习和模型（JDE）。换句话说，提出的JDE使用单个网络来同时输出检测结果和检测盒的相应外观嵌入。
相比之下， SDE方法和two-stage方法分别以重新采样的像素（边界框）和特征图为特征。边界框和特征图都被馈入单独的re-ID模型中以提取外观特征。
该算法主要优势？实现效果
在MOT-16 test 数据集上获得MOTA=64.4%的精度下，帧率达到18.8帧，作为比较， R-CNN+QAN 在获得MOTA=66.1%的精度下，帧率只有不到6帧。
与其他模型的区别
下面这张图就介绍了三种不同的MOT实现方案：
检测和表观特征联合学习
网络结构
JDE使用了FPN作为骨干网络，利用多尺度的方式提取不同大小目标的特征。图中输入的视频帧通过FPN获取了3个不同尺度的特征图，分别将尺寸缩小了32、16和8倍。每个特征图都连接了一个 head ，将基于三个尺度融合的特征图的 head进行叠加。预测头由数个堆砌的卷积层组成，输出尺寸为(6A+D) * H * W的预测。A表示各尺度的 box的数目， D是特征的维度。
最后通过该叠加预测头可以得到3个结果：
box分类结果，大小为 2A * H * W；box回归系数，大小为 4A * H * W；特征的尺寸，大小为 D * H * W 。
从这里可以看处JDE相对于SDE来说它复用了已有的共享特征图，一次提取便可以得到3个结果，这是一个one-stage的模型。
检测分支：
这个过程类似于RPN过程，是基于实现的。它相对于-RCNN中的RPN做了两处修改：
针对行人目标，重新设计了的数量、大小和长宽比。所有的的宽高比设置为1：3 ，每个尺度下的数量设为4 ，的宽度从11 -> 512 。调整了属于前景和背景的阈值。在JDE中，和gt的IOU大于0.5则认为其是前景目标，但如果其与任意 truth的IOU都小于0.4则被认为是背景。作者这里使用了0.4 ，而不是普遍使用的0.3 ，这样会使得更多的少量重叠的目标被判定为背景，有助于减少误报率，在高度重叠的场景下比较有益。