为什么YOLO在目标检测领域如此流行？( 三 ) _模型

5- 细粒度特征
预测生成13x13的特征图，这对于大型物体检测当然足够了。但是，对于更细的物体检测，可以通过将26×26×512特征图转换为13×13×2048特征图并与原始特征串联来修改架构。这种方法将模型性能提高了1％。
- 渐进式改进
在的基础上进行了渐进式改进，创建了。
主要的变化包括一个新的网络架构：-53 。这是一个106层的神经网络，具有上采样网络和残差块。与的骨干网络-19相比，它更大、更快、更准确。这种新的架构在许多方面都有益处：
1- 更好的边界框预测
使用逻辑回归模型为每个边界框预测物体得分。
2- 更准确的类别预测
与中使用的不同，引入了独立的逻辑分类器来准确预测边界框的类别。这在面对具有重叠标签的更复杂领域时非常有用（例如，人→足球运动员）。使用会限制每个框只有一个类别，这并不总是正确的。
3- 在不同尺度上更准确的预测
对每个位置在输入图像中进行三次不同尺度的预测，以帮助从前一层进行上采样。这种策略允许获得细粒度和更有意义的语义信息，以获得更高质量的输出图像。
- 目标检测的最佳速度和准确性
与所有先前版本和其他最先进的目标检测器相比，这个版本的YOLO具有最佳的目标检测速度和准确性。
下面的图像显示，与相比，的速度提高了10％，与FPS相比提高了12％。
是专门为生产系统设计的，并针对并行计算进行了优化。
架构的主干是，这是一个包含29个卷积层的网络，具有3 x 3滤波器和大约2760万个参数。
与相比，该架构增加了以下信息以实现更好的物体检测：
感受野: 卷积神经网络每一层输出的特征图（ map）上的像素点映射回输入图像上的区域大小。通俗点的解释是，特征图上一点，相对于原图的大小，也是卷积神经网络特征所能看到输入图像的区域

文章插图
YOLOR?—?You Only Look One
YOLOR是一个多任务统一网络，它基于显式和隐式知识方法的组合统一网络。
显性知识和隐性知识
显性知识是指正常或有意识的学习。而隐性学习则是指通过经验在潜意识中进行的学习。
将这两种技术结合起来，YOLOR能够基于三个过程创建更强大的架构：（1）特征对齐，（2）目标检测的预测对齐，以及（3）多任务学习的规范表示。
1- 预测对齐
这种方法在每个特征金字塔网络（FPN）的特征图中引入了隐式表示，可以将精度提高约0.5％。
2- 目标检测的预测细化
通过向网络的输出层添加隐式表示，可以对模型预测进行细化。
3- 多任务学习的规范表示
执行多任务训练需要在所有任务共享的损失函数上执行联合优化。这个过程可能会降低模型的整体性能，而在模型训练期间集成规范表示可以缓解这个问题。
从下面的图表中，我们可以看到YOLOR在MS COCO数据上实现了与其他模型相比的最先进的推理速度。
YOLOX - 2021年超越YOLO系列
本文使用的修改版作为基线，并以-53作为其骨干网络。
《YOLOX:YOLOin 2021》一文中，YOLOX提供了以下四个关键特性，以创建比旧版本更好的模型。
1- 高效分离的头部
在之前的YOLO版本中使用的联合头部被证明会降低模型的性能。YOLOX使用了分离的头部，可以将分类和定位任务分开，从而提高了模型的性能。
2- 强大的数据增强
将和MixUp集成到数据增强方法中，显著提高了YOLOX的性能。
3- 无锚点系统
基于锚点的算法在内部执行聚类，这会增加推理时间。在YOLOX中去除了锚点机制，减少了每个图像的预测数量，并显著提高了推理时间。