分类数据增强论文“CutMix: Regularization Strategy _样本

ICCV 2019的论文。
策略已被证明可以提高分类任务的准确性。这种方法用于引导模型去关注对象中辨别能力较弱的部分，比如人的腿部而不是人的头部，从而使网络去有更强的概括能力，并且可以获得更好的定位能力。另一方面，现有的方法只是简单的放置一个黑色的patch或者噪声块(比如)，这样就导致了信息损失和信息的不准确性。作者用的方法把Mixup和结合起来了，切割一块patch并且粘贴上另外一张训练图片相同地方的patch，对应的label也按照patch大小的比例进行混合。
思路上还是比较容易理解的。
假设 x ∈ R W × H × C x\in\{R}^{W\times H\times C} x∈RW×H×C和 y y y代表的训练的输入图像和标签值。生成的新的训练样本 ( x ~ , y ~ ) (\tilde{x},\tilde{y}) (x~,y~?)通过训练样本 ( x A , y A ) (x_A,y_A) (xA?,yA?), ( x B , y B ) (x_B,y_B) (xB?,yB?)获得，操作如下：
x ~ = M ⊙ x A + ( 1 ? M ) ⊙ x B \tilde{x}=M\odot x_A+(1-M)\odot x_B x~=M⊙xA?+(1?M)⊙xB?

文章插图
y ~ = λ y A + ( 1 ? λ ) y B \tilde{y}=\ y_A+(1-\)y_B y~?=λyA?+(1?λ)yB?
其中 M ∈ { 0 , 1 } W × H M\in\{0,1\}^{W\times H} M∈{0,1}W×H代表着一个二值的mask，而 λ \ λ从Beta分布 B e t a ( α , α ) Beta(\alpha,\alpha) Beta(α,α)中获得，α = 1 \alpha=1 α=1时相当于 λ \ λ从(0,1)间的均与分布中选取。
在二值mask M中，首先随机选择 box框 B = ( r x , r y , r w , r h ) \{B}=(r_x,r_y,r_w,r_h) B=(rx?,ry?,rw?,rh?)用来确定 x A x_A xA?和 x B x_B xB?中的crop。x A x_A xA?中 B \{B} B的部分被移除，填入对应的 x B x_B xB?中的部分。
抽样也比较简单，抽取一个成比例的矩形框即可
r x ～ Unif ( 0 , W ) , r w = W 1 ? λ r_x\sim \text{Unif}(0,W), r_w=W\sqrt{1-\} rx?～Unif(0,W),rw?=W1?λ?
r y ～ Unif ( 0 , H ) , r h = H 1 ? λ r_y\sim \text{Unif}(0,H), r_h=H\sqrt{1-\} ry?～Unif(0,H),rh?=H1?λ?

文章插图
从而 r w r h W H = 1 ? λ \frac{}{WH}=1-\ WHrw?rh??=1?λ
学到了什么信息？
中，CAM显示用于存在没有使用的，关注的less 的特征就更；Mixup中虽然用到了全图的信息，但是引入了不自然的伪影。Mixup也会出现不知道选择哪个模块作为的线索的问题。
而可以更准确的定位两个类别中的cue 。如下图所示。
【分类数据增强论文“CutMix: Regularization Strategy】结果上主要还是和mixup以及相比较。