ICIP-2018 用于深度图像检索的加权广义平均池化( 四 )


在 MAC 的情况下,最大池化为每个 2D 特征图保留一个激活 。这样,每个描述符分量对应一个等于感受野的图像块 。然后,通过描述符内积评估成对图像相似度 。因此,MAC 相似性隐含地形成了切片对应关系 。每个对应的强度由相关描述符组件的乘积给出 。在图 2 中,显示了对相似性贡献最大的对应图像块 。这种隐式对应关系在微调后得到改善 。此外,CNN 在类上的触发更少,例如汽车和自行车 。
图 4 展示了激活的空间分布如何受到广义均值的影响 。p p p 越大,特征图响应就越局部化 。最后,在图 3 中,展示了与带有 GeM 池化层(简称 GeM 层)的微调 VGG 匹配的查询和数据库图像的示例 。展示了最有助于将该数据库图像与具有很大相似性的非匹配图像区分开来的特征图 。
最后一个网络层包括一个? 2 \ell_{2} ?2? 归一化层 。向量f \{f} f 是? 2 \ell_{2} ?2? 归一化的,因此最终使用内积评估两个图像之间的相似性 。在本文的其余部分,GeM 向量对应于? 2 \ell_{2} ?2? 归一化向量f  ̄ \{\{f}} f 并构成图像描述符 。
图 2. 对应于 MAC 描述符维度的图像区域的可视化对成对图像相似度的贡献最大,即描述符元素的大乘积 。该示例在微调之前(顶部)和之后(底部)使用 VGG 。相同的颜色对应于每个图像对的相同描述符组件(特征图) 。切片大小等于最后一个局部池化层的感受野 。
图 3. 一对查询数据库图像投影在原始图像上的X k p \{X}_{k}^{p} Xkp? 的可视化 。显示的 9 个特征图是数据库图像(右)得分高的特征图,即 GeM 描述符组件的大乘积,但排名靠前的非匹配图像得分低 。该示例对所有特征图使用带有 GeM 和单个p p p 的微调 VGG,收敛到 2.92 。
图 4. 对于三个不同的p p p 值,投影在原始图像上的X k p \{X}_{k}^{p} Xkp? 的可视化 。情况p = 1 p=1 p=1 对应于 SPoC,较大的p p p 对应于 (3) 求和之前的 GeM 。所示示例使用现成的 VGG 。
2.3.of wGeM
如表 1 所示,wGeM 概括了以前的池化方法,例如 sum 、 sum 、max 和GeM。与基于均匀池化的GeM 池化不同,wGeM在将图像编码为描述符时忽略了图像的冗余部分 。wGeM也可以应用于区域池化,其中网络产生多个Ω \Omega Ω,每个Ω \Omega Ω 与单个区域相关联 。每个Ω \Omega Ω 可以直接从每个区域的激活中获得,也可以从从X \{X} X 获得的全局Ω \Omega Ω 中采样 。
表 1. 深度表示的池化方法比较 。本文的方法标有? \star ? 。使用 wGeM 来表示加权广义均值 。
wGeM的一个重要特性与其在p → ∞ p \ \infty p→∞ 时的行为有关 。在这种情况下,公式 2 退化到最大池化,而与ω \omega ω 无关 。在反向传播期间,损失L \{L} L 对ω \omega ω 的导数为
? L ? ω i = 1 p ∑ k = 1 K ? L ? y k ( x i , k y k ) p ? 1 x i , k ( 6 ) \frac{\ \{L}}{\ \{i}}=\frac{1}{p} \sum_{k=1}^{K} \frac{\ \{L}}{\ y_{k}}\left(\frac{x_{i, k}}{y_{k}}\right)^{p-1} x_{i, k}\quad(6) ?ωi??L?=p1?k=1∑K??yk??L?(yk?xi,k??)p?1xi,k?(6)
其中( x i , k y k ) p ? 1 ∈ { 0 , 1 } \left(\frac{x_{i, k}}{y_{k}}\right)^{p-1} \in\{0,1\} (yk?xi,k??)p?1∈{0,1} 并且仅当y k = x i , k y_{k}=x_{i, k} yk?=xi,k? 时才等于1 。因此,当1 p → 0 \frac{1}{p} \ 0 p1?→0 时,公式 6 接近零 。也就是说,所有ω i ∈ Ω \{i} \in \Omega ωi?∈Ω 在前向和后向传播期间都变得无效 。L \{L} L 关于p p p 的导数也存在类似的问题 。在实践中,学习到的p p p 在本文的实验中从未达到很大的值,这与GeM 的结果一致 。
参考文献
[6] Filip ,, andChum, “ CNN imagewith no human ,” CoRR, 2017. 1, 2, 3, 4
[55] P . Dollár, Z. Tu, P . , and S. , “.” in BMVC, 2009. 4