【论文泛读】 Faster R-CNN:利用RPN实现实时目标检测( 二 )


介绍
区域推荐方法和基于区域的卷积神经网络(RCNNs)的成功推动了物体检测水平的进步 。但是推荐显然是最先进检测系统的瓶颈 。区域推荐仍然是目标检测的主要耗时阶段 。
在这篇论文中,展示一个算法上的改变——使用深度卷积神经网络计算推荐区域——将引出一个优雅而高效的解决方案,在给定检测网络完成的计算的基础上,让区域的计算近乎为0 。提出了一个新型的区域推荐网络(,RPNs),它和当今世界最棒的检测网络(当时是VGG16和ZFnet)共享卷积层 。通过在测试阶段共享卷积,让计算推荐区域的边际成本变得很低 。(大约每张图片10ms)

【论文泛读】 Faster R-CNN:利用RPN实现实时目标检测

文章插图
RPNs被设计用来高效地预测各种尺度和宽高比的区域推荐,这里提出了一个“(锚点)”,使用“锚点”盒(“” boxes)作为不同尺度和宽高比的参照物 。我们的模式可以看做是一个回归参照物的金字塔,这避免了穷举各种尺度和宽高比的图像或过滤器 。这个模型在单一尺度图像的训练和测试时表现优异,因而运行速度大为受益 。
为了统一RPNs和Fast R-CNN物体检测网络,我们提出一种介于区域推荐任务调优和之后的物体检测调优之间的训练方法,同时还能保证固定的推荐 。这个方法可以很快收敛,并产生一个统一的网络,该网络在两个任务上共享卷积特征 。
在和COCO 2015竞赛中,R-CNN和RPN是多项分赛长的第一名,包括 检测,定位,COCO检测和COCO分割 。RPNs从数据中完全学会了推荐区域,而且使用更深或更有表达力的特征(比如101层的)效果会更好 。R-CNN和RPN也用于多个其他领先名词的团队所使用 。这些结果都说明我们的方法不仅实用省时,而且有效精准 。
相关工作Work
这里略微提一下
首先是物体推荐,物体推荐算法大部分有几种,广泛使用的有基于 super-(如 ,CPMC等算法),还有就是基于滑动窗口的,比如 。
其次就是深度神经网络在目标检测上的影响,R-CNN是一个端到端的模型,它利用CNNs进行分类物体类别和背景 。还有一些模型比如、 方法,这些可能得去看相关的论文 。
总结起来,这种卷积计算的共享,越来越受关注,中针对分类、定位、检测时会只从一个图像金字塔计算卷积特征 。尺寸自适应的SPP也是建立在共享卷积特征图智商的,在基于区域的物体检测[1][30]和语义分割上很有效 。Fast R-CNN使得端到端的检测器训练全部建立在共享卷积特征之上,表现出了有引人注目的精度和速度 。
R-CNN
R-CNN有两个模块组成,整个网络是一个单一、通以的目标检测网络 。
其实又可以细分为四个部分,Conv Layer,(RPN),RoI ,and ,就如下面论文中的图一样
区域推荐网络
RPN网络用于生成区域候选框,基于网络模型引入的多尺度,通过对属于目标()还是背景()进行分类判决,并使用 Box 对进行回归预测,获取的精确位置,并用于后续的目标识别与检测 。
经典的检测方法生成检测框都非常耗时,如 使用滑动窗口+图像金字塔生成检测框;或如RCNN使用SS( )方法生成检测框 。
而 RCNN则抛弃了传统的滑动窗口和SS方法,直接使用RPN生成检测框,这也是 RCNN的巨大优势,能极大提升检测框的生成速度 。
上图中展示了RPN网络的具体结构,可以看到,map 经过一个3×3卷积核卷积后分成了两条线,上面一条通过对分类获得和(检测目标是),因为是2分类,所以它的维度是 。
下面那条线是用于计算的 box 的偏移量,以获得精确的 。它的维度是4k。
而最后的层则负责综合 和 box 偏移量获取,同时剔除太小和超出边界的,其实网络到这个 Layer这里,就完成了目标定位的功能