基于AI的图像视觉处理技术( 四 ) _分割

应用场景及商业价值
GAN的应用比VAE更加广泛， GAN应用到一些场景上，比如图像风格迁移，超分辨率，图像补全，去噪，避免了损失函数设计的困难，只要有一个的基准，直接加上判别器，剩下的就交给对抗训练了。由于GAN的变种非常多，比如CGAN、DCGAN、WGAN等，以及近两年的高清图像生成模型Style GAN等，所以基本上能看到的一些生成类模型都以GAN为主。
四、物体分割

文章插图
1.FCN
FCN(Fully)是深度学习应用在图像分割的代表作, 是一种端到端(end to end)的图像分割方法。因为FCN网络中所有的层都是卷积层，故称为全卷积网络。
技术思想及原理分析
FCN顾名思义，即全卷积网络，做为使用深度学习做图像分割的先例，其象征意义更大于实际意义。FCN的主要特点是整个网络全部是由卷积网络构成的，不包括全连接。另外FCN采用的结构是以编解码网络为主干的瓶颈结构，加上了各层级之间的跳跃链接来获取局部细节信息。但由于模型设计简单，下采样部分和上采用部分并不对等，其分割效果并不理想。
应用场景及商业价值
分割类模型的应用场景比较广泛，目前最常见的应用范围涉及医疗影像分割、交通道路分割、GIS地理单位分割等领域。FCN是最早使用编解码瓶颈结构加跳跃连接来实现像素级分割的神经网络模型，虽然效果并不理想，但是对后来这一类模型的发展提供了可参考的价值，在后面的很多分割模型当中都可以看到FCN的影子。下图是FCN在不同的跳跃连接和步长下的分割效果，很明显，跳跃连接更多的分割也更精准一些。
2.UNet系列
Unet是一种比较年轻的神经网络，顾名思义，其结构为U形，在卷积层一层一层提取特征的同时将首尾对称的两层联系起来。
技术思想及原理分析
UNet可以看作是对FCN的一种优化，在FCN之后的很多基于神经网络的分割模型都可以看到FCN的影子，而UNet就是其中一个。UNet和FCN比起来，首先在模型结构上做到了完全对称，下采样部分的参数结构和上采用部分的参数结构几乎保持一致。另外在每个对应的下采样和上采样之间都使用了跳跃连接来增强细节信息的捕捉。在FCN中的add被改成了，让通道上的特征信息更加丰富。
应用场景及商业价值
由于UNet的分割效果更好，基于UNet的实际分割应用也更加广泛， UNet最早被设计出来的时候，就是为了做医学影像分割的。下图是UNet对眼球毛细血管的分割效果图，可以看出UNet对图像细节的分割效果是非常好的。
除了UNet之外，在UNet家族中还有UNet++ ， UNet3+ ， U2Net等等，其效果都要比原始的UNet更强。下面是N2Net的分割效果。可以看出U2Net的分割效果也是非常出色的。
3.系列
在图像分割领域中是另一个系列，目前已经有 v1、 v2、 v3和 v3+等版本。
技术思想及原理分析
和UNet系列比起来，主要差别是在对输入图像的处理和网络的结构上。主要使用了图像金字塔、空洞卷积、SPP空间金字塔池化、可分离卷积等方法来提高分割的效果。其v1版本的网络比较简单，是在vgg16的基础上改动得到的，测试时使用全连接条件随机场(FullyCRF)来提高分割精度。通过空洞卷积获得图像特征金字塔来提取不同细节层次的信息，然后综合信息上采样还原图像，在上采样过程中，同样使用了跳跃连接来增强细节信息。