《Multi( 二 )


文章插图
~~~~~~ 根据Zhang等人的方法 , 我们直接从输入图像中估计人群密度图 。为了生成高质量的比例尺相关密度图 , 比例尺自适应内核是当前的最佳选择 。对于图像的每个头部注释 , 我们将其表示为增量函数δ ( x ? x i ) δ(x-x_i) δ(x?xi?)  , 并使用高斯核G σ G_σ Gσ? 描述其分布 , 以便可以将密度图表示为F ( x ) = H ( x ) ? G σ ( x ) F(x)= H(x)*G_σ(x) F(x)=H(x)?Gσ?(x)  , 最后累加到 人群计数值 。如果我们假设人群均匀分布在地平面上 , 则头部x i x_i xi? 及其最近的10个注解之间的平均距离d i d_i di? 通常可以表征使用 Eq(1) 的透视效应引起的几何变形 , 其中M M M 是总数图像中的头部注释 , 我们根据经验将β = 0.3 β= 0.3 β=0.3 固定 。
2.3. Model
~~~~~~ 模型的输出映射到密度图 , 欧几里得距离用于测量输出特征图和相应地面真实性之间的差异 。需要优化的损失函数定义为 Eq(2) , 其中Θ Θ Θ 代表模型的参数 , 而F ( X i ; Θ ) F(X_i; Θ) F(Xi?;Θ) 代表模型的输出 。
3.
~~~~~~ 我们评估了多尺度卷积神经网络(MSCNN)在两个不同的数据集上的人群计数 , 其中包括和数据集 。实验结果表明 , 我们的MSCNN在准确性和鲁棒性方面均优于最新方法,参数要少得多 。所有卷积神经网络都基于Caffe进行训练 。
3.1.
~~~~~~ 根据现有的最先进的方法 , 我们使用绝对误差(MAE) , 平均平方误差(MSE)和神经网络参数的数量()来评估测试数据集的性能 。在Eq.(3)和Eq.(4)中定义了MAE和MSE 。
这里的N N N 代表测试数据集中的图像总数 ,  z i z_i zi? 和z ^ i \hat{z}_i z^i? 分别是该图像的地面真实性和估计值 。通常 , MAE , MSE和可以分别表示一种方法的准确性 , 鲁棒性和计算复杂性 。
3.2. The
~~~~~~ 数据集是大规模人群计数数据集 。它包含1198个带注释的图像 , 共330,165人 。数据集由两部分组成:PartA具有从爬网的482张图像和PartB具有从繁忙的街道拍摄的716张图像 。之后 , 它们都被分为具有300张图像的训练集和具有其余图像的测试集 。
3.2.1. Model

《Multi

文章插图
~~~~~~ 为了确保有足够的数据用于模型训练 , 请通过裁剪每个图像中的9个小块并将其翻转来进行数据增强 。我们只需将9个裁剪点固定为上 , 中和下 , 并结合左 , 中和右即可 。每个补丁是原始大小的90% 。
~~~~~~ 为了便于与MCNN体系结构进行比较 , 该网络的设计类似于MCNN的最大专栏 , 但使用MSB , 其详细设置在表1中进行了描述 。所有卷积核均使用高斯权重设置标准偏差为0.01进行初始化 。如第2.3节所述 , 我们使用SGD优化 , 动量为0.9 , 重量衰减为0.0005 。
3.2.2.
~~~~~~ 我们将我们的方法与数据集上的4种现有方法进行比较 。LBP + RR方法使用LBP功能在计数值和输入图像之间回归函数 。张等设计了一个卷积网络 , 以从原始像素中回归密度图和人群计数值 。建议使用多列CNN来估计人群计数值(MCNN-CCR)和人群密度图(MCNN) 。
~~~~~~ 在表2中 , 结果表明我们的方法在数据集上达到了最先进的性能;此外 , 应该强调的是 , 我们的参数数量远远少于其他两种基于CNN的算法 。MSCNN使用了大约 7 X 与最新方法(MCNN)相比 , 参数更少 , 具有更高的准确性和鲁棒性 。