为什么YOLO在目标检测领域如此流行?( 三 )


5- 细粒度特征
预测生成13x13的特征图,这对于大型物体检测当然足够了 。但是,对于更细的物体检测,可以通过将26×26×512特征图转换为13×13×2048特征图并与原始特征串联来修改架构 。这种方法将模型性能提高了1% 。
- 渐进式改进
在的基础上进行了渐进式改进,创建了 。
主要的变化包括一个新的网络架构:-53 。这是一个106层的神经网络,具有上采样网络和残差块 。与的骨干网络-19相比,它更大、更快、更准确 。这种新的架构在许多方面都有益处:
1- 更好的边界框预测
使用逻辑回归模型为每个边界框预测物体得分 。
2- 更准确的类别预测
与中使用的不同,引入了独立的逻辑分类器来准确预测边界框的类别 。这在面对具有重叠标签的更复杂领域时非常有用(例如,人→足球运动员) 。使用会限制每个框只有一个类别,这并不总是正确的 。
3- 在不同尺度上更准确的预测
对每个位置在输入图像中进行三次不同尺度的预测,以帮助从前一层进行上采样 。这种策略允许获得细粒度和更有意义的语义信息,以获得更高质量的输出图像 。
- 目标检测的最佳速度和准确性
与所有先前版本和其他最先进的目标检测器相比,这个版本的YOLO具有最佳的目标检测速度和准确性 。
下面的图像显示,与相比,的速度提高了10%,与FPS相比提高了12% 。
是专门为生产系统设计的,并针对并行计算进行了优化 。
架构的主干是,这是一个包含29个卷积层的网络,具有3 x 3滤波器和大约2760万个参数 。
与相比,该架构增加了以下信息以实现更好的物体检测:
感受野: 卷积神经网络每一层输出的特征图( map)上的像素点映射回输入图像上的区域大小 。通俗点的解释是,特征图上一点,相对于原图的大小,也是卷积神经网络特征所能看到输入图像的区域

为什么YOLO在目标检测领域如此流行?

文章插图
YOLOR?—?You Only Look One
YOLOR是一个多任务统一网络,它基于显式和隐式知识方法的组合统一网络 。
显性知识和隐性知识
显性知识是指正常或有意识的学习 。而隐性学习则是指通过经验在潜意识中进行的学习 。
将这两种技术结合起来,YOLOR能够基于三个过程创建更强大的架构:(1)特征对齐,(2)目标检测的预测对齐,以及(3)多任务学习的规范表示 。
1- 预测对齐
这种方法在每个特征金字塔网络(FPN)的特征图中引入了隐式表示,可以将精度提高约0.5% 。
2- 目标检测的预测细化
通过向网络的输出层添加隐式表示,可以对模型预测进行细化 。
3- 多任务学习的规范表示
执行多任务训练需要在所有任务共享的损失函数上执行联合优化 。这个过程可能会降低模型的整体性能,而在模型训练期间集成规范表示可以缓解这个问题 。
从下面的图表中,我们可以看到YOLOR在MS COCO数据上实现了与其他模型相比的最先进的推理速度 。
YOLOX - 2021年超越YOLO系列
本文使用的修改版作为基线,并以-53作为其骨干网络 。
《YOLOX:YOLOin 2021》一文中,YOLOX提供了以下四个关键特性,以创建比旧版本更好的模型 。
1- 高效分离的头部
在之前的YOLO版本中使用的联合头部被证明会降低模型的性能 。YOLOX使用了分离的头部,可以将分类和定位任务分开,从而提高了模型的性能 。
2- 强大的数据增强
将和MixUp集成到数据增强方法中,显著提高了YOLOX的性能 。
3- 无锚点系统
基于锚点的算法在内部执行聚类,这会增加推理时间 。在YOLOX中去除了锚点机制,减少了每个图像的预测数量,并显著提高了推理时间 。