ICIP-2018 用于深度图像检索的加权广义平均池化( 三 )


? y k ? x i , k = ∑ j = 1 N ? y k ? ω j ? ω j ? x i , k + ω i ( x i , k y k ) p ? 1 ( 3 ) ? y k ? ω i = x i , k p ( x i , k y k ) p ? 1 ( 4 ) ? y k ? p = y k p ( ∑ i ω i x i , k p log ? x i , k y k p ? log ? y k ) ( 5 ) \begin{} \frac{\ y_{k}}{\ x_{i, k}} &=\sum_{j=1}^{N} \frac{\ y_{k}}{\ \{j}} \frac{\ \{j}}{\ x_{i, k}}+\{i}\left(\frac{x_{i, k}}{y_{k}}\right)^{p-1} \quad(3) \\ \frac{\ y_{k}}{\ \{i}} &=\frac{x_{i, k}}{p}\left(\frac{x_{i, k}}{y_{k}}\right)^{p-1} \quad(4)\\ \frac{\ y_{k}}{\ p} &=\frac{y_{k}}{p}\left(\frac{\sum_{i} \{i} x_{i, k}^{p} \log x_{i, k}}{y_{k}^{p}}-\log y_{k}\right) \quad(5) \end{} ?xi,k??yk???ωi??yk???p?yk???=j=1∑N??ωj??yk???xi,k??ωj??+ωi?(yk?xi,k??)p?1(3)=pxi,k??(yk?xi,k??)p?1(4)=pyk??(ykp?∑i?ωi?xi,kp?logxi,k???logyk?)(5)?
空间加权机制有望反映每个位置激活的判别力 。图 2 显示了两个匹配示例 。在图 2a 的右图中,wGeM 很好地定位了感兴趣的目标,即,并成功地忽略了遮挡目标,例如树木和房屋 。图 2b 显示了一个更具挑战性的示例,其中图像彼此不同,视角和尺度变化很大 。
图 2. 由 wGeM 在独立数据集上使用 微调生成的匹配图像及其 2D 掩码Ω \Omega Ω 。
(补充) -meanand image
该文献于2018年发表在TPAMI上
文献地址:链接
添加一个池化层,它以X \{X} X 作为输入并产生一个向量f \{f} f 作为池化过程的输出 。该向量在传统全局最大池化的情况下由下式给出
f ( m ) = [ f 1 ( m ) … f k ( m ) … f K ( m ) ] ? , f k ( m ) = max ? x ∈ X k x ( 1 ) \{f}^{(m)}=\left[\{f}_{1}^{(m)} \ldots \{f}_{k}^{(m)} \ldots \{f}_{K}^{(m)}\right]^{\top}, \quad \{f}_{k}^{(m)}=\max _{x \in \{X}_{k}} x \quad(1) f(m)=[f1(m)?…fk(m)?…fK(m)?]?,fk(m)?=x∈Xk?max?x(1)
而对于平均池化
f ( a ) = [ f 1 ( a ) … f k ( a ) … f K ( a ) ] ? , f k ( a ) = 1 ∣ X k ∣ ∑ x ∈ X k x . ( 2 ) \{f}^{(a)}=\left[\{f}_{1}^{(a)} \ldots \{f}_{k}^{(a)} \ldots \{f}_{K}^{(a)}\right]^{\top}, \quad \{f}_{k}^{(a)}=\frac{1}{\left|\{X}_{k}\right|} \sum_{x \in \{X}_{k}} x .\quad(2) f(a)=[f1(a)?…fk(a)?…fK(a)?]?,fk(a)?=∣Xk?∣1?x∈Xk?∑?x.(2)
相反,利用广义均值 [55] 并提出使用广义均值 (GeM) 池化,其结果由下式给出
f ( g ) = [ f 1 ( g ) … f k ( g ) … f K ( g ) ] ? , f k ( g ) = ( 1 ∣ X k ∣ ∑ x ∈ X k x p k ) 1 p k ( 3 ) \{f}^{(g)}=\left[\{f}_{1}^{(g)} \ldots \{f}_{k}^{(g)} \ldots \{f}_{K}^{(g)}\right]^{\top}, \quad \{f}_{k}^{(g)}=\left(\frac{1}{\left|\{X}_{k}\right|} \sum_{x \in \{X}_{k}} x^{p_{k}}\right)^{\frac{1}{p_{k}}}\quad(3) f(g)=[f1(g)?…fk(g)?…fK(g)?]?,fk(g)?=(∣Xk?∣1?x∈Xk?∑?xpk?)pk?1?(3)
池化方法 (1) 和 (2) 是 (3) 中给出的 GeM 池化的特殊情况,即p k → ∞ p_{k} \ \infty pk?→∞ 时的最大池化和p k = 1 p_{k}=1 pk?=1 时的平均池化 。特征向量最终由每个特征图的单个值组成,即广义平均激活,其维度等于K K K 。对于许多流行的网络,这等于 256、512 或 2048,使其成为紧凑的图像表示 。
池化参数p k p_{k} pk? 可以手动设置或学习,因为此操作是可微的,并且可以是反向传播的一部分 。相应的导数(为简洁起见跳过上标( g ) (g) (g))由下式给出
? f k ? x i = 1 ∣ X k ∣ f k 1 ? p k x i p k ? 1 ? f k ? p k = f k p k 2 ( log ? ∣ X k ∣ ∑ x ∈ X k x p k + p k ∑ x ∈ X k x p k log ? x ∑ x ∈ X k x p k ) \begin{} \frac{\ \{f}_{k}}{\ x_{i}} &=\frac{1}{\left|\{X}_{k}\right|} \{f}_{k}^{1-p_{k}} x_{i} ^{p_{k}-1} \\ \frac{\ \{f}_{k}}{\ p_{k}} &=\frac{\{f}_{k}}{p_{k}^{2}}\left(\log \frac{\left|\{X}_{k}\right|}{\sum_{x \in \{X}_{k}} x^{p_{k}}}+p_{k} \frac{\sum_{x \in \{X}_{k}} x^{p_{k}} \log x}{\sum_{x \in \{X}_{k}} x^{p_{k}}}\right) \end{} ?xi??fk???pk??fk???=∣Xk?∣1?fk1?pk??xipk??1?=pk2?fk??(log∑x∈Xk??xpk?∣Xk?∣?+pk?∑x∈Xk??xpk?∑x∈Xk??xpk?logx?)?
(3) 中的每个特征图都有不同的池化参数,但也可以使用共享的 。在这种情况下p k = p , ? k ∈ [ 1 , K ] p_{k}=p, \ k \in[1, K] pk?=p,?k∈[1,K] 。简单地将其表示为p p p 而不是p k p_{k} pk? 。作者在实验部分检查这些选项,并与手动调整和固定参数值进行比较 。