语义分割算法性能比较_语义分割江湖的那些事儿——从旷视说起

今天的主题是 Face++组近两年持续在做的相关工作,代表性成果主要有 1)GCN ()、2)DFN ()、3) () 。我们先来看一段演示 Demo:
DFN算法结果展示 回顾
介绍算法之前,我们先简单回顾一下语义分割( )的历史 。众所周知,计算机视觉有三大核心任务——分类、检测、分割,三者号称是深度学习炼丹师的“三大浪漫” 。分类针对整张图片,检测针对图片的局部,语义分割则如图1所示,旨在给输入图片上的每个像素赋予一个正确的语义标签 。
图 1: VOC 2012 图片示例
传统的分割算法我们先按下不表 。时间拨回到 2015 年,语义分割江湖之中,FCN 横空出世,自此 DL/NN 方法席卷了整个语义分割领域 。短短几年,各个的 state-of-the-art 不断刷新,成果喜人 。
FCN 前期阶段,研究重点主要是解决“网络逐渐衰减的特征尺寸和需要原图尺寸的预测之间的矛盾”,换言之,就是如何解决网络不断造成的信息损失;期间百家争鸣,百花齐放,涌现了希望保存或者恢复信息的 、 等方法,也出现了进行结构预测的各种花式 CRF 方法 。
“大道之争”之中,碰撞出了两个最重要的设计:U-shape和Conv,据此形成当下语义分割领域网络设计最常见的两大派系:1)U-shape 联盟以 、GCN、DFN 等算法为代表;2) 联盟以 、 系列方法为代表;随着 Base Model 性能不断提升,语义分割任务的主要矛盾也逐渐渐演变为“如何更有效地利用 ”;这中间又是一番腥风血雨,我们今天介绍的 3 位主角也在其中贡献了一份力量 。
介绍
语义分割任务同时需要和。今天我们介绍的三种算法都将从这两方面分别提出各自对应的解决方案 。整体对比如下:
第一位主角是算法(GCN),江湖人送外号“Large ” 。论文 Arxiv 链接请见: 。
————
GCN 主要将分解为: 和 两个问题 。但是,这两个任务本质对特征的需求是矛盾的,需要特征对多种具有不变性,而 需要对 比较敏感 。但是,普通的Model大多针对Issue设计,正如图2(b)所示,而这不利于。
图2
所以,为了兼顾这两个 Task,本文提出了两个 :
从来看,我们需要全卷积网络,而且不能有全连接或者全局池化等操作丢失位置信息 。从来看,我们需要让 Per-pixel或者Map 上每个点的连接更稠密一些,也就需要更大的Size,如图 2(c) 所示 。
——网络结构——
根据这两条 ,本文提出了(GCN) 。如图3所示,这个方法整体结构正是背景介绍中提到的U-shape结构,其核心模块主要包括:GCN 和 BR 。
图3 网络结构
此处主要介绍GCN设计 。正如图3(b)所示,它采用了较大Size的卷积核,来同时解决上述的两个 Issue;然后根据矩阵分解,利用

的卷积来替代原来的
大核卷积 。相对于原本的大核卷积,该设计能明显降低参数量和计算量 。图4可视化了 LargeConv 和 普通 Conv网络有效感受野的对比 。
图4
可以看到,LargeConv 的有效感受野显著增大 。
——实验——
文中为了验证 LargeConv的有效性,对比了不同 Size的 ,可以看到 Size=15时比 Base 整整高了 5.5% mean IoU.
此外,文中还对 LargeConv 进行了一系列讨论 。
通过实验结果可知,随着Size的增加,普通 Conv的参数量远大于GCN,但是GCN的性能却持续地优于普通 Conv 。
可以看到 GCN 依然优于普通 Conv 的堆叠,尤其是在较大Size 的情况下 。笔者认为这是一个很有价值的实验,可以启发我们去思考关于网络感受野的问题 。我们以往认为,通过堆叠多个小核 Conv 可以达到和大核 Conv 一样的感受野,同时计算量还更少 。最常见的应用比如 VGG-Net 。但是,实际上并非如此 。