点击上方“3D视觉工坊” , 选择“星标”
干货第一时间送达
作者丨.D@知乎(已授权)
来源丨
编辑丨极市平台
导读
本文是作者参加CCF BDCI获得冠军的比赛经验总结以及语义分割trick的整理 。作者的比赛方案最大的特点是将连通性问题转换为二分类问题解决 , 结果优异 , 传统图像形态学后处理仍然可靠 。且无须针对性设计loss和 , 分类器可用多种小模型 , 实际环境下并行处理也更快 。
赛题分析
文章插图
赛题分析
这次比赛也是第一次正式参加的比赛 , 地块分割本质上也是个语义分割的问题 , 之前没搞过 , 花了比较多的时间对网上的trick进行了整理学习 , 见最后附录整理的资料 。初赛并不困难 , 主要考虑7类结果的平均IOU , 复赛加入了对水体和道路类的连通性评判指标 。最终的方案以较大的优势在A榜和B榜取得了第一名的成绩 。
数据分析
文章插图
数据分析
统计数据集中各类面积占比饼状图如上图所示 , 可以发现数据集中存在类别不均衡现象 , 建筑、道路和草地类较少 , 而其他类较多 。进一步的统计 , 可以得知只有分别约7%/10%/13%的图片满足建筑/道路/草地面积占比大于1% 。数据存在极度类别不均衡现象 , 常规的方法不适于训练 。
文章插图
分析
结合结果可以发现 , 尽管建筑类数据较少 , 但由于其地貌容易辨识 , 分类结果较准确;而道路和草地类则因为与其他类存在相似性 , 但训练数据不足 , 结果较差 。因此 , 提升模型分类能力(MIOU)的关键是解决类别不均衡问题 , 尤其是道路类和草地类 。
思路介绍 整体思路
文章插图
整体思路
要解决这些问题 , 直接的方式是使用针对IOU设计的损失函数进行re-(如- Loss、 Focal Loss等) , 但训练较慢 , 结果收敛不稳定 。其次是可以针对特殊类设计模块 , 但结构复杂且周期长 。最终我们借鉴了的思想 , 用不同概率分布的训练数据训练一系列弱分类器 , 并通过投票融合得到强分类器 。这里之所以用类似 , 是因为与不同 , 我们这里的数据并不是每轮增加错误样本权重 , 弱分类器的**“弱”**也是指特殊类别上弱 , 融合权重根据准确率与连通性需求人为规定 。
数据处理
文章插图
数据处理
为了获取不同的训练数据 , 我们设计了不同数据处理方案:(1) 划分道路草地类正负样本(负样本指不包含该类的样本) , 多阶段逐步增加负样本比例(借鉴的 的思想由简单到复杂训练 , 结果更好收敛);(2) 在原数据的基础上 , 对道路草地类样本re- , 为了避免过拟合 , 对重采样数据进行多种数据增强(水平翻转+垂直翻转+放缩为0.75/0.875/1.125/1.25倍) , 与re-相比 , 简单直接效果好;(3) 针对建筑/道路/水体类转换处理得到二分类训练数据(同样进行数据增强并加入随机旋转90/180/270度) , 训练特殊的二分类器 , 加强模型对特殊类别的前景后景区分能力 。在数据增强时 , 我们还进行了阈值筛选 , 仅对面积占比较大的图像进行相应处理 , 直觉上这些数据对训练更友好 。
- 2020年Java篇:蚂蚁金服,这10个经典又容易被人疏忽的JVM面试题
- 纯干货献上 2020蚂蚁金服、头条、拼多多的面试总结
- CVE-2020-15999:Chrome FreeType字体库堆溢出原理分析
- 2020年助眠神器:用了“酷新材料”的五只羊床垫,居然不失眠了?
- 考计算机二级ms怎么备考,2020年计算机二级MS Office备考技巧分享
- 北华大学计算机学院2020校历,北华大学2020年什么时候放寒假
- 一级 2020年06月 Python真题解析#中国电子学会#全国青少年软件编程
- 广交会2020展时间表
- 计算机仿真外审2020,动力学计算文章投稿期刊选择技巧
- MDC机床监控与数据采集系统 数控机床采集解决方案 2020