ICIP-2018 用于深度图像检索的加权广义平均池化

用于深度图像检索的加权广义平均池化
paper题目:MEANFOR DEEP IMAGE
paper是日本NTT公司发表在ICIP 2018的工作
paper地址:链接
卷积激活上的空间池化(例如,最大池化或总和池化)已被证明在学习用于图像检索的深度表示方面是成功的 。然而,大多数池化技术都假设每个激活都同样重要,因此它们会允许无信息图像区域的存在,这些区域在匹配方面起负面作用或导致特定视觉实例的混淆 。为了解决这个问题,本文提出了一个可训练的构建块,它引导汇集对当前任务很重要的局部信息 。该方法将池化定义为加权广义均值 (wGeM),其中在激活时学习权重,反映图像匹配中每个激活的判别能力 。将 wGeM 嵌入深度网络可改善图像表示并提高标准基准的检索性能 。wGeM 不需要任何边界框注释,而是从头开始学习激活的潜在概率 。它甚至超越了客观性,学会了观察重要的视觉细节,而不是感兴趣目标的整个区域 。
索引词——深度卷积网络、图像检索、学习排序、池化、加权广义均值
1.
微调深度网络以学习深度图像表示已被证明可以显着改善图像检索 。更重要的是通过结合 1) 良好的预训练分类网络、2) 良好的池化方法和 3) 排序损失来直接优化网络与检索任务中使用的相似性 。以前,使用了许多池化方法,从全连接层到全局池化方法,包括总和池化、最大池化、广义平均 (GeM) 池化、区域池化和聚合技术 。这些方法中的大多数对卷积层的激活执行统一池化,其中每个激活都对全局表示的构建做出同等贡献 。
然而,空间均匀池化会受到激活的影响,这些激活对匹配起负面作用或导致特定视觉实例的混淆 。为了解决这个问题,Gordo 等人提出了一种区域网络(RPN),该网络经过训练可以定位图像中感兴趣的对象 。RPN 学习在目标级别预测区域,其中并非所有信息都对最终检索任务很重要 。它还需要用于训练的边界框注释和大量的预处理工作 。等在总和池化之前应用空间加权来提升同时发生大量强激活的位置并降低不太活跃的位置的权重 。然而,他们工作中的权重层是不可训练的,并且激活强度可能与位置的判别力无关 。
【ICIP-2018用于深度图像检索的加权广义平均池化】本文提出利用空间加权机制对最后一个卷积层的激活进行池化 。这种方法预测了一个权重,该权重描述了在图像匹配和检索方面如何区分每个位置的每个激活 。本文的想法受到视觉注意力的启发,视觉注意力已成功应用于图像字幕、机器翻译和目标识别 。通过扩展它并将其与池化和学习排序相结合,将这种机制引入图像检索任务,从而基于一种新颖的加权广义均值 (wGeM) 池化方法实现深度表示的端到端学习 。Sum 、max 和GeM 都是wGeM的特例 。本文的方法还推广了的方法,同时使加权机制可训练 。与预测物体刚性边界框的RPN不同,wGeM从头开始学习激活的潜在概率 。本文的方法不需要进行训练的边界框注释,不需要昂贵的预处理或任何关于训练数据集的假设 。证明了将wGeM结合到深度网络中可以改善图像表示并提高标准基准的检索性能 。
2.2.1.and
提出的 wGeM 可以应用于任何卷积神经网络 (CNN),例如、VGG和 。这种经过图像分类训练的 CNN 在执行检索微调时提供了良好的初始化 。给定图像I \{I} I,CNN的输出是一个三维张量X ∈ R H × W × K \{X} \in \{R}^{H \times W \times K} X∈RH×W×K,K K K 是通道的数量,其全连接层被丢弃了 。现在添加一个wGeM块,将X \{X} X 作为输入并产生一个l 2 l^{2} l2 归一化的描述符y  ̄ ∈ R K \{\{y}} \in \{R}^{K} y?∈RK 作为输出 。关于wGeM的细节在第2.2节中提供 。