ICIP-2018 用于深度图像检索的加权广义平均池化( 二 )


本文遵循等人[6]关于学习程序的说法 。如图1a所示,采用了一个孪生网络,其中两个分支共享相同的参数 。训练输入包括图像对( I i , I j ) \left(\{I}_{i}, \{I}_{j}\right) (Ii?,Ij?) 和标签z i , j ∈ { 0 , 1 } z_{i, j} \in\{0,1\} zi,j?∈{0,1},分别声明一个图像对是不匹配还是匹配 。y  ̄ i \{\{y}}_{i} y?i? 是wGeM输出的图像I i \{I}_{i} Ii? 的描述符 。采用对比损失, 其定义为
L i , j = { 1 2 ∥ y  ̄ i ? y  ̄ j ∥ 2 2 if z i , j = 1 1 2 [ max ? ( 0 , τ ? ∥ y  ̄ i ? y  ̄ j ∥ 2 ) ] 2( 1 ) \{L}_{i, j}= \begin{cases}\frac{1}{2}\left\|\{\{y}}_{i}-\{\{y}}_{j}\right\|_{2}^{2} & \text { if } z_{i, j}=1 \\ \frac{1}{2}\left[\max \left(0, \tau-\left\|\{\{y}}_{i}-\{\{y}}_{j}\right\|_{2}\right)\right]^{2} & \text {}\end{cases} \quad(1) Li,j?=????21?∥∥?y?i??y?j?∥∥?22?21?[max(0,τ?∥∥?y?i??y?j?∥∥?2?)]2?ifzi,j?=?(1)
其中,τ \tau τ 是一个超参数,定义了铰链损失的边际,只有当欧氏距离小于τ \tau τ 时,非匹配对才会支付线性惩罚 。在测试过程中,经过微调的网络为查询和语料库中的每个文档产生一个描述符y  ̄ \{\{y}} y? 。检索工作通过使用欧氏距离计算查询和每个文档描述符之间的相似度来进行 。
图 1. 网络架构和 wGeM 池化 。块和层以蓝色显示 。变量和参数分别以红色和绿色显示 。
2.2.Mean
wGeM 将张量X \{X} X 作为输入并产生一维描述符y  ̄ \{\{y}} y? 。令x k ∈ R H × W \{x}_{k} \in \{R}^{H \times W} xk?∈RH×W 是通道k ∈ { 1 , … , K } k \in\{1, \ldots, K\} k∈{1,…,K} 的激活特征图 。令N = H × W N=H \times W N=H×W 。重塑x k \{x}_{k} xk? 使得x k = [ x 1 , k … x N , k ] ? \{x}_{k}=\left[x_{1, k} \ldots x_{N, k}\right]^{\top} xk?=[x1,k?…xN,k?]? 。为清楚起见 。还假设 CNN 的最后一层是 ReLU,使得所有x k ∈ X \{x}_{k} \in \{X} xk?∈X 都是非负的 。
给定一串正的权重Ω = [ ω 1 … ω N ] ? \{\Omega}=\left[\{1} \ldots \{N}\right]^{\top} Ω=[ω1?…ωN?]?,其中∥ Ω ∥ 1 = 1 \|\{\Omega}\|_{1}=1 ∥Ω∥1?=1,利用加权广义平均数,提出构建一个一维描述符y = [ y 1 … y K ] ? \{y}=\left[y_{1} \ldots y_{K}\right]^{\top} y=[y1?…yK?]?,形式为
y k = ( ∑ i = 1 N ω i x i , k p ) 1 / p ( 2 ) y_{k}=\left(\sum_{i=1}^{N} \{i} x_{i, k}^{p}\right)^{1 / p}\quad(2) yk?=(i=1∑N?ωi?xi,kp?)1/p(2)
其中p p p 是指数 。这是wGeM的核心 。每个权重ω i ∈ Ω \{i} \in \{\Omega} ωi?∈Ω 描述了激活[ x i , 1 … x i , K ] ? \left[x_{i, 1} \ldots x_{i, K}\right]^{\top} [xi,1?…xi,K?]? 在位置i i i 用于将图像I \{I} I 与其他图像区分开来 。因此,Ω \{\Omega} Ω 可以理解为软2D掩码 。wGeM 与视觉注意力机制有关,但它与它们的区别在于指数p p p 的存在 。描述符y \{y} y 稍后经过l 2 l^{2} l2 归一化,得到最终的描述符y  ̄ \{\{y}} y? 。因此,两幅图像之间的相似度变成了余弦相似度,可以用内积y  ̄ i ? y  ̄ j \{\{y}}_{i}^{\top} \{\{y}}_{j} y?i??y?j? 计算 。对于广泛使用的CNN,K K K 等于 512 或 2,048,使y  ̄ \{\{y}} y? 成为紧凑的图像表示 。
继等人[6]之后,学习指数p p p 以及 CNN 的微调 。考虑一个函数Φ : X ? Ω \Phi: \{X} \ \{\Omega} Φ:X?Ω,它通过将X \{X} X 转换为关于是否将位置i i i 处的激活编码到y \{y} y 的灵活决策来参数化Ω \Omega Ω 。与p p p 一样,Φ \Phi Φ 可以通过微调来学习 。尽管它可以基于任何 CNN 块,但为此选择了单个3 × 3 3 \times 3 3×3 卷积,然后是空间函数,如图 1b 所示 。这个单一的卷积减轻了反向传播复杂度的增加 。采用函数代替或 ReLU 函数,使得Ω \Omega Ω 满足∥ Ω ∥ 1 = 1 \|\{\Omega}\|_{1}=1 ∥Ω∥1?=1 。公式 2 关于变量x x x 和ω \omega ω 以及参数p p p 的导数分别由方程 3、4 和 5 给出 。在等式的右侧 。如图 3 所示,第一项和第二项分别对应于通过图 1b 中的上部和中间路径的反向传播 。