【领域泛化论文阅读】Embracing the Dark Knowledge

这篇论文从任务的难度来解决领域泛化问题,论文认为如果模型的学习任务太难的话,容易发生过拟合,学习到的特征是域特有的特征而不是域不变特征,这样很难学习到泛化的特征 。因此论文假设简单的任务可以提高目标域的泛化性能 。论文提出了对于域泛化的知识蒸馏(KDDG),在知识蒸馏框架基础上使用梯度滤波器作为正则化项,提高模型泛化能力 。
采用知识蒸馏模型,可以让学生网络学习更少的领域特定特征,达到更好泛化能力 。教师网络给学生网络提供soft label,含有更多的信息量,可以让学生网络学习的任务更简单,可以学习到更加和的 。教师网络和学生网络之间的蒸馏损失是式(2),学生网络的总损失是蒸馏损失和学生网络的输出与hard label之间交叉熵损失的加权和式(3) 。

【领域泛化论文阅读】Embracing the Dark Knowledge

文章插图
梯度滤波器只应用于学生网络的训练 。的设置如式(4)所示,ω代表梯度,η是控制强度的超参数 。梯度滤波器可以视为对损失函数施加权重 。梯度滤波器可以防止学生网络与教师网络过于相似,也可以过滤掉与high score输出相对应的梯度,可以避免over-的问题 。在每次迭代中,梯度滤波器检查每个样本的置信度,并降低置信度得分高于预定义阈值的样本的梯度权重 。
采用了梯度滤波器后的模型域泛化的综合损失可以表示为式(8),ε是避免教师模型的错误预测产生的负面影响 。
参考文献
【【领域泛化论文阅读】Embracing the Dark Knowledge】Wang Y, Li H, Chau L, et al.the Dark :Using[C]// of the 29th ACMon . 2021: 2595-2604.