Towards Real-Time Multi

论文链接:
代码链接:
翻译链接:
文章目录分析:为什么该模型效率优于其他模型?环境搭建与实验复现参考
摘要
现在的MOT系统通常使用-by-的方式 。这种方式有以下两个部件:1)用于目标定位的检测模型 , 2)用于数据关联(data )的外观嵌入模型(model) 。两个模型分开执行可能会导致效率问题 , 其运行时间只是简单的将两个结构的运行时间加起来 , 而没有去探究它们之间可能某些结构可以共享的潜在可能性 。现有的实时MOT的方法主要研究 step , 所以这些方法事实上只是实时 model而不是实时MOT系统 。在本文中 , 我们提出了一个将目标检测和外观嵌入共享结构学习的MOT模型 。具体而言 , 我们将外观嵌入模型合并到-shot 中 , 以便该模型可以同时输出检测结果和相应的嵌入 。因此 , 该系统被转化为一个多任务的学习问题:存在多个学习目标 , 即 ,   , bbox  ,  ,以及各个损失的自动权重 。
算法介绍 现有MOT出现的问题
现在的MOT系统通常使用-by-的方式 。这种方式分为两部分:
用于目标定位的检测模型用于数据关联(data )的外观嵌入模型(model) 。
一般MOT的结构使得它具有以下缺陷:
解决方案
作者在论文中提到通过单个深度网络联合学习和模型(JDE) 。换句话说 ,  提出的JDE使用单个网络来同时输出检测结果和检测盒的相应外观嵌入 。
相比之下 ,  SDE方法和two-stage方法分别以重新采样的像素(边界框)和特征图为特征 。边界框和特征图都被馈入单独的re-ID模型中以提取外观特征 。
该算法主要优势?实现效果
在MOT-16 test 数据集上获得MOTA=64.4%的精度下 , 帧率达到18.8帧 , 作为比较 ,  R-CNN+QAN 在获得MOTA=66.1%的精度下 , 帧率只有不到6帧 。
与其他模型的区别
下面这张图就介绍了三种不同的MOT实现方案:
检测和表观特征联合学习
网络结构
JDE使用了FPN作为骨干网络 , 利用多尺度的方式提取不同大小目标的特征 。图中输入的视频帧通过FPN获取了3个不同尺度的特征图 , 分别将尺寸缩小了32、16和8倍 。每个特征图都连接了一个 head , 将基于三个尺度融合的特征图的 head进行叠加 。预测头由数个堆砌的卷积层组成 , 输出尺寸为(6A+D) * H * W的预测 。A表示各尺度的 box的数目 , D是特征的维度 。
最后通过该叠加预测头可以得到3个结果:
box分类结果 , 大小为 2A * H * W;box回归系数 , 大小为 4A * H * W;特征的尺寸 , 大小为 D * H * W 。
从这里可以看处JDE相对于SDE来说它复用了已有的共享特征图 , 一次提取便可以得到3个结果 , 这是一个one-stage的模型 。
检测分支:
这个过程类似于RPN过程 , 是基于实现的 。它相对于-RCNN中的RPN做了两处修改:
针对行人目标 , 重新设计了的数量、大小和长宽比 。所有的的宽高比设置为1:3 , 每个尺度下的数量设为4 , 的宽度从11 -> 512 。调整了属于前景和背景的阈值 。在JDE中 , 和gt的IOU大于0.5则认为其是前景目标 , 但如果其与任意 truth的IOU都小于0.4则被认为是背景 。作者这里使用了0.4 , 而不是普遍使用的0.3 , 这样会使得更多的少量重叠的目标被判定为背景 , 有助于减少误报率 , 在高度重叠的场景下比较有益 。