图4:模型训练方式
训练方式如下:
当然 , 我们也尝试过将二三阶段合并在一起 , 但效果不太好 。主要是由于无标注数据样本太多 , 有标注数据太少 , 有标注数据很容易淹没在无标注数据中 。
当然有余力的同学可以尝试通过MAE的方式预训练一个模型拿来初始化 , 但笔者受限于算力环境 , 不太容易训收敛 , 所以没采用这种方式 , 不过这也是一个很好的预训练方式 。
实践证明 , 合理的利用无标注数据进行预训练对泛化性和AUC提升很大 。经过分析 , 发现主要原因可能在于无标注数据的规模比较大 , 测试集的分布更加接近无标注数据集的分布 , 故而利用好无标注数据就是一把大杀器 。
记得初赛阶段切换过一次数据 , 在原有4000张测试样本的基础上增加了6000张测试样本 , 我们发现切换数据后大家的模型性能都遇到了显著的下降 , 这里我们统计了增加前四千张和增加的六千张的概率分布图 , 发现差异还比较大 。
图5:分布不一致的解决
通过我们半监督预训练的方式 , 增加的六千张的概率分布图由蓝线变成绿线 , 和红线更靠近 , 从而缩小了两部分的差异 , 大幅提升了分数 。所以模型训练的关键就在于合理地利用无标注数据进行预训练 , 利用测试集与无标注数据的相似性进行调参炼丹 。
消融实验
我们也做了一些消融实验 , 发现存在一些特点
图6:不同方法线下验证结果
图7:初赛与复赛的分数变化图方案优势
综上所述 , 我们的方案主要有以下几方面的优势:
【2022华为全球校园AI算法精英赛:季军方案!】整理不易 , 点赞三连↓
- 华为云AstroZero,教你如何零代码制作端午节加班申请模板
- 海风移动
- 华为云服务器怎么传文件,华为云服务器怎么传文件
- 生态农业规划
- 上海物业排行榜2020,全球最好的物业单位排名
- 麦当劳黑白通吃堡
- 全球供应链25强企业:强生第4,联想第8,沃尔玛第9,雀巢第17 中国十大跨国公司
- 全球六大洗发水排名,选择“恰到好处”的洗发水让你从头散发美丽 世界十大洗发水品牌排行榜
- 2022-2023十大家装涂料优选品牌公开发布 中国十大涂料油漆品牌
- 中国首座横向“摩天大楼”,堪称全球最美建筑,你知道是哪吗? 中国之最朝天扬帆