2 Transformer综述大全【A Survey of Visual Tr

讨论分割 Query-BasedVI.未来的研究结论
接 上篇综述大全(1)【Aof】中介绍完原始与提出用于分类的网络,本文介绍用于目标检测与分割所提出的网络 。4FOR 目标检测
在本部分中,我们将详细介绍用于目标检测的可视,它们可以分为两类:作为颈项的和作为主干的 。颈部检测器主要基于一种指定给结构的新表示,称为对象查询,它是一组学习参数相等地聚合全局特征的表示 。他们试图从收敛加速或性能改进的角度来解决最优融合范例 。除了专门为检测任务设计的各种颈部外,一部分骨干检测器也考虑到了特定的策略 。最后,我们在表II和表III中对它们的性能进行了比较,并分析了检测器的一些潜在的改进之处 。
Neck
我们首先回顾了DETR[28],它提供了一种新的表示对象查询的方法,将对象检测描述为集合预测问题 。由于其对小目标精度不高,收敛速度慢,人们从稀疏关注度、空间优先和结构重新设计三个方面对其进行了改进 。此外,我们还回顾了自我监督应用程序[74] 。
1)原始检测器
使用检测(DETR)[28]是第一个端到端 检测器,消除了手工设计的表示法[115]-[118]和非最大抑制(NMS)后处理,通过引入对象查询和集合预测直接检测所有对象 。具体地说,DETR使用编解码器 作为颈部,使用FFN作为预测头(图11) 。输入由CNN主干提取,压平成一维序列,附加位置编码,然后送入 编码器 。一小部分称为对象查询的可学习位置编码被附加到零输入,然后并行地馈送到解码器 。在解码器中,自我注意块处理解码器嵌入关系,交叉注意块将全局特征聚合到嵌入中 。然后,预测头通过简单的三层FFN将解码器输出直接转换为框坐标和每个对象的类分数 。
总体而言,DETR为端到端的目标检测提供了一种新的方法 。对象查询在与图像特征交互的过程中逐渐学习实例特征 。二部匹配使得直接集合预测可以很容易地适应Oneto-One标签分配任务,从而消除了传统的后处理 。DETR在COCO基准上获得了有竞争力的性能,但在小对象上存在收敛速度慢和性能差的问题 。
2)稀疏关注的
在DETR中,解码器嵌入和全局特征12之间的密集交互消耗了巨大的计算资源,并减缓了DETR的收敛速度 。因此,一些努力旨在设计依赖于数据的稀疏关注来解决这一问题,例如可变形DETR[67]和ACT[?] 。
3)空间先验
与锚点或其他由内容和几何特征直接生成的表示不同[115]、[123],对象查询隐式地对空间信息进行随机初始化建模,这可能与边界框弱相关 。目前,空间先验应用的主要方法有具有经验空间信息的一级检测器[69]、[70]和几何坐标初始化的两级检测器[67]、[71] 。
4) with
重新设计了结构的:除了针对交叉注意的修改外,一些工作还重新设计了仅编码器的结构,以直接避免解码器的问题 。例如,TSP[72]继承了集合预测[28]的思想,并产生解码器和对象查询 。YOLOS[73]结合了DETR的编解码器颈部和VIT的仅编码器主干,重新设计了仅编码器检测器 。
5)with Self-
受成功的预培训NLP 的启发[3]、[5],戴等人 。提出了一种无监督的预培训DETR(UP-DETR)[74],从三个方面来辅助监督培训 。
在第三节中,我们回顾了许多基于的主干用于图像分类[27]、[38] 。这些主干可以很容易地合并到各种框架中(例如,Mask R-CNN[124]、[117]、DETR[28]等)执行密集的预测任务 。
除了一般的改进外,它们的比例也有利于密集的预测任务 。与PVT[39]、[58]一样,分层结构将构建为一个从高到低分辨率的过程来学习多尺度特征 。局部增强结构将主干构建为局部到全局的组合,以有效地提取短期和远程视觉依赖,并避免二次计算开销,例如[33]、VIL[55]和Focus [54] 。表三比较了密集预测任务中基于不同框架的这些模型 。基于的主干比现代CNN模型的性能高出2-6.8%,这证明了在密度预测方面的有效性 。