2022华为全球校园AI算法精英赛：季军方案！( 二 ) _标注

图4：模型训练方式
训练方式如下：
当然，我们也尝试过将二三阶段合并在一起，但效果不太好。主要是由于无标注数据样本太多，有标注数据太少，有标注数据很容易淹没在无标注数据中。
当然有余力的同学可以尝试通过MAE的方式预训练一个模型拿来初始化，但笔者受限于算力环境，不太容易训收敛，所以没采用这种方式，不过这也是一个很好的预训练方式。
实践证明，合理的利用无标注数据进行预训练对泛化性和AUC提升很大。经过分析，发现主要原因可能在于无标注数据的规模比较大，测试集的分布更加接近无标注数据集的分布，故而利用好无标注数据就是一把大杀器。
记得初赛阶段切换过一次数据，在原有4000张测试样本的基础上增加了6000张测试样本，我们发现切换数据后大家的模型性能都遇到了显著的下降，这里我们统计了增加前四千张和增加的六千张的概率分布图，发现差异还比较大。
图5：分布不一致的解决
通过我们半监督预训练的方式，增加的六千张的概率分布图由蓝线变成绿线，和红线更靠近，从而缩小了两部分的差异，大幅提升了分数。所以模型训练的关键就在于合理地利用无标注数据进行预训练，利用测试集与无标注数据的相似性进行调参炼丹。
消融实验
我们也做了一些消融实验，发现存在一些特点
图6：不同方法线下验证结果
图7：初赛与复赛的分数变化图方案优势
综上所述，我们的方案主要有以下几方面的优势：
【2022华为全球校园AI算法精英赛：季军方案！】整理不易，点赞三连↓