这篇论文从任务的难度来解决领域泛化问题,论文认为如果模型的学习任务太难的话,容易发生过拟合,学习到的特征是域特有的特征而不是域不变特征,这样很难学习到泛化的特征 。因此论文假设简单的任务可以提高目标域的泛化性能 。论文提出了对于域泛化的知识蒸馏(KDDG),在知识蒸馏框架基础上使用梯度滤波器作为正则化项,提高模型泛化能力 。
采用知识蒸馏模型,可以让学生网络学习更少的领域特定特征,达到更好泛化能力 。教师网络给学生网络提供soft label,含有更多的信息量,可以让学生网络学习的任务更简单,可以学习到更加和的 。教师网络和学生网络之间的蒸馏损失是式(2),学生网络的总损失是蒸馏损失和学生网络的输出与hard label之间交叉熵损失的加权和式(3) 。
文章插图
梯度滤波器只应用于学生网络的训练 。的设置如式(4)所示,ω代表梯度,η是控制强度的超参数 。梯度滤波器可以视为对损失函数施加权重 。梯度滤波器可以防止学生网络与教师网络过于相似,也可以过滤掉与high score输出相对应的梯度,可以避免over-的问题 。在每次迭代中,梯度滤波器检查每个样本的置信度,并降低置信度得分高于预定义阈值的样本的梯度权重 。
采用了梯度滤波器后的模型域泛化的综合损失可以表示为式(8),ε是避免教师模型的错误预测产生的负面影响 。
参考文献
【【领域泛化论文阅读】Embracing the Dark Knowledge】Wang Y, Li H, Chau L, et al.the Dark :Using[C]// of the 29th ACMon . 2021: 2595-2604.
- 王象乾生平简介,他有着哪些轶闻趣事
- 状元龙汝言:马屁状元龙汝言荣宠不绝的秘密
- 朱元璋为什么不把皇位传于朱棣论他一生功过
- 中国领先世界的5大科技,海底隧道惊艳,盾构机让老外眼馋! 科技生活中国之最
- 多轮对话-2020:DialoGPT【生成式多轮对话模型】
- 小野小町:日本西施,世界三大美女之一
- 丧心*狂的皇太极为什么要将姐姐千刀万剐
- ChaGPT与历史题 历史之最问答游戏有哪些
- 海南四大潜水地不可错过 海南哪个岛是海底世界之最
- 【论文阅读】Embracing Domain Differences in Fa