神经网络与深度学习-4

一、yolo网络 网络结构
网络结构包含24个卷积层和2个全连接层;其中前20个卷积层用来做预训 练,后面4个是随机初始化的卷积层,和2个全连接层 。
YOLO包围框
我们有2个框,每个框的bb个数为,分类器可以识别出种不同的物体,那么所有整个 truth的长度为 ×× ( × 5 + ) YOLO v1中,这个数量是30 YOLO v2和以后版本使用了自聚类的 box为bb, v2版本为 = 5, v3中=9 。
归一化
四个关于位置的值,分别是, , ?和,均为整数,实际预测中收敛慢 因此,需要对数据进行归一化,在0-1之间 。例子是一个448*448的图 片,有3*3的grid,每个 cell是149 。目标中心点是(220,190) 。
置信度
:图中绿框为真实标注,其余五个颜色框为预测值,可计算对应U 。
训练值( truth):Pr的 truth:三个目标中点对应格子为1,其它为0 。
训练数据与网络输出
YOLO损失函数
YOLO损失函数——边界框对应损失项
第2项要开根号,让误差更显著,保证回归精度 。
YOLO损失函数——边界框对应损失项
YOLO损失函数——取值
非极大值抑制
NMS核心思想:选择得分最高的作为输出,与该输出重叠的去掉,不断重复这一过程直到
所有备选处理完 。NMS算法要点:
1. 首先丢弃概率小于预定IOU阈值(例如0.5)的所有边界框;对于剩余的边界框:
2. 选择具有最高概率的边界框并将其作为输出预测;
3. 计算 “作为输出预测的边界框”,与其他边界框的相关联IoU值;舍去IoU大于阈值的边界框;其实就是舍弃与“作为输出预测的边界框”很相近的框框 。
4. 重复步骤2,直到所有边界框都被视为输出预测或被舍弃
数据集训练
预训练与训练:
①YOLO先使用数据集对前20层卷积网络进行预训练,然后使用完整的网络,在 VOC数据集上进行对象识别和定位的训练和预测;
②训练中采用了drop out和数据增强来防止过拟合;
③YOLO的最后一层采用线性激活函数(因为要回归bb位置),其它层都是采用Leaky ReLU激活函数:
二、语义分割与FCN
语义分割:找到同一画面中的不同类型目标区域
实例分割:同一类型目标要分出来具体实例(谁是谁)
目标检测:标出来外包围矩形
语义分割基本思想
对图中每一个像素进行分类,得到对应标签;
对图中每一个像素进行分类,得到对应标签
滑动次数太多,计算太慢,重复计算太多
FCN网络结构
网络结构分为两个部分:全卷积部分和反卷积部分 。全卷积部分借用了一些 经典的CNN网络,并把最后的全连接层换成卷积,用于提取特征,形成热点 图;反卷积部分则是将小尺寸的热点图上采样得到原尺寸的语义分割图像 。
反卷积与反池化
× 卷积:

神经网络与深度学习-4

文章插图
上池化(),或称为反池化
FCN具体实现
FCN网络结构:卷积部分
FCN中第6、7、8层都是通过1 × 1卷积得到的,第6层的输出是4096 × 7 × 7,第7层的输出是4096 × 7 × 7,第8层的输出是1000 × 7 × 7,即1000个大小是 7 × 7的特征图(称为) 。
输出的特征图(称为),颜色越贴近红色表示对应数值越大 。
反卷积部分:跳级结构
FCN评价指标与标注工具
常见标注工具:
、EISeg
风格迁移
如何实现风格迁移:首先初始化合成图像,该合成图像是风格迁移过程中唯一需要更新的变量,也就是迁移所需要的模型参数,然后,会通过一个预训练的神经网络来抽取图像的特征,深度卷积神经网络通过多个层级逐级抽取图像的特征 。最终,我们可以选择其中某些层的输出作为内容特征或样式特征 。