2022华为全球校园AI算法精英赛:季军方案!( 二 )


图4:模型训练方式
训练方式如下:
当然 , 我们也尝试过将二三阶段合并在一起 , 但效果不太好 。主要是由于无标注数据样本太多 , 有标注数据太少 , 有标注数据很容易淹没在无标注数据中 。
当然有余力的同学可以尝试通过MAE的方式预训练一个模型拿来初始化 , 但笔者受限于算力环境 , 不太容易训收敛 , 所以没采用这种方式 , 不过这也是一个很好的预训练方式 。
实践证明 , 合理的利用无标注数据进行预训练对泛化性和AUC提升很大 。经过分析 , 发现主要原因可能在于无标注数据的规模比较大 , 测试集的分布更加接近无标注数据集的分布 , 故而利用好无标注数据就是一把大杀器 。
记得初赛阶段切换过一次数据 , 在原有4000张测试样本的基础上增加了6000张测试样本 , 我们发现切换数据后大家的模型性能都遇到了显著的下降 , 这里我们统计了增加前四千张和增加的六千张的概率分布图 , 发现差异还比较大 。
图5:分布不一致的解决
通过我们半监督预训练的方式 , 增加的六千张的概率分布图由蓝线变成绿线 , 和红线更靠近 , 从而缩小了两部分的差异 , 大幅提升了分数 。所以模型训练的关键就在于合理地利用无标注数据进行预训练 , 利用测试集与无标注数据的相似性进行调参炼丹 。
消融实验
我们也做了一些消融实验 , 发现存在一些特点
图6:不同方法线下验证结果
图7:初赛与复赛的分数变化图方案优势
综上所述 , 我们的方案主要有以下几方面的优势:
【2022华为全球校园AI算法精英赛:季军方案!】整理不易 , 点赞三连↓