分类数据增强论文“CutMix: Regularization Strategy

ICCV 2019的论文 。
策略已被证明可以提高分类任务的准确性 。这种方法用于引导模型去关注对象中辨别能力较弱的部分,比如人的腿部而不是人的头部,从而使网络去有更强的概括能力,并且可以获得更好的定位能力 。另一方面,现有的 方法只是简单的放置一个黑色的patch或者噪声块(比如),这样就导致了信息损失和信息的不准确性 。作者用的方法把Mixup和结合起来了,切割一块patch并且粘贴上另外一张训练图片相同地方的patch,对应的label也按照patch大小的比例进行混合 。
思路上还是比较容易理解的 。
假设 x ∈ R W × H × C x\in\{R}^{W\times H\times C} x∈RW×H×C和 y y y代表的训练的输入图像和标签值 。生成的新的训练样本 ( x ~ , y ~ ) (\tilde{x},\tilde{y}) (x~,y~?)通过训练样本 ( x A , y A ) (x_A,y_A) (xA?,yA?), ( x B , y B ) (x_B,y_B) (xB?,yB?)获得,操作如下:
x ~ = M ⊙ x A + ( 1 ? M ) ⊙ x B \tilde{x}=M\odot x_A+(1-M)\odot x_B x~=M⊙xA?+(1?M)⊙xB?

分类数据增强论文“CutMix: Regularization Strategy

文章插图
y ~ = λ y A + ( 1 ? λ ) y B \tilde{y}=\ y_A+(1-\)y_B y~?=λyA?+(1?λ)yB?
其中 M ∈ { 0 , 1 } W × H M\in\{0,1\}^{W\times H} M∈{0,1}W×H代表着一个二值的mask,而 λ \ λ从Beta分布 B e t a ( α , α ) Beta(\alpha,\alpha) Beta(α,α)中获得,α = 1 \alpha=1 α=1时相当于 λ \ λ从(0,1)间的均与分布中选取 。
在二值mask M中,首先随机选择 box框 B = ( r x , r y , r w , r h ) \{B}=(r_x,r_y,r_w,r_h) B=(rx?,ry?,rw?,rh?)用来确定 x A x_A xA?和 x B x_B xB?中的crop。x A x_A xA?中 B \{B} B的部分被移除,填入对应的 x B x_B xB?中的部分 。
抽样也比较简单,抽取一个成比例的矩形框即可
r x ~ Unif ( 0 , W ) , r w = W 1 ? λ r_x\sim \text{Unif}(0,W), r_w=W\sqrt{1-\} rx?~Unif(0,W),rw?=W1?λ?
r y ~ Unif ( 0 , H ) , r h = H 1 ? λ r_y\sim \text{Unif}(0,H), r_h=H\sqrt{1-\} ry?~Unif(0,H),rh?=H1?λ?
分类数据增强论文“CutMix: Regularization Strategy

文章插图
从而 r w r h W H = 1 ? λ \frac{}{WH}=1-\ WHrw?rh??=1?λ
学到了什么信息?
中,CAM显示用于存在没有使用的,关注的less 的特征就更;Mixup中虽然用到了全图的信息,但是引入了不自然的伪影 。Mixup也会出现不知道选择哪个模块作为的线索的问题 。
而可以更准确的定位两个类别中的cue 。如下图所示 。
【分类数据增强论文“CutMix: Regularization Strategy】结果上主要还是和mixup以及相比较 。