ICASSP 2014 Small( 四 ) _dnn

4.2.
我们首先评估为基线HMM和Deep KWS系统训练的较小神经网络的性能。两种系统都使用2.1中描述的前端。他们都使用了一个网络，该网络具有3个隐藏层，每层具有128个隐藏节点，并且具有ReLU非线性。但是，两个网络的参数数量并不相同。用于基线HMM系统的DNN声学模型使用10个左框架和5个右框架的输入窗口大小，并输出2,002个HMM状态，从而产生大约373K参数。Deep KWS使用30个左框架和10个右框架，但仅生成单词标签，从而根据评估的关键短语将输出标签清单减少到3或4 。Deep KWS的参数总数不超过244K 。
图3显示了两个系统的性能。基线3×128（VS）是指具有在语音搜索语料库上训练的DNN声学模型的HMM系统。基准3×128（VS + KW）是使用关键字特定数据适应DNN声学模型后的同一系统。Deep 3×128（KW）是指针对关键字特定数据训练的拟议Deep KWS系统。最后，如我们在2.2节中介绍的，使用经过VS数据训练的网络初始化Deep 3×128KW网络时，Deep 3×128（VS + KW）表现出性能。
从结果可以清楚地看出，即使使用更少的数据和更少的参数来训练，建议的Deep KWS仍胜过基线HMM KWS系统。例如，请参见图3中的Deep 3×128（KW）与 3×128（VS + KW）。在非常低的虚警率下，增益较大，这对于我们的应用而言是理想的工作点。在0.5％的FA率下，深3×128（VS + KW）系统相对于基准3×128（VS + KW）可获得45％的相对改进。使用第2.2节中所述的框架，对KW数据上的网络进行培训仅需几个小时，而对VS + KW上的网络进行培训则需要大约一周的时间。
4.3. Model Size
图4给出了评估两个使用6×512网络的系统时的性能。在这种情况下，基线的参数数量增加到2.6M，而Deep模型达到2.1M 。Deep 6×512（KW）系统实际上比较小的3×128模型性能差，我们推测这是由于KW数据不足以训练大量参数。但是，当两个系统都以VS + KW数据进行训练时，相对于其相应的3×128系统，我们观察到了一致的改进。同样，Deep KWS系统具有优于基准的性能。
4.4. 噪声鲁棒性
我们还在带噪声的测试集上测试了相同的模型，该测试集是通过向原始测试集添加10db SNR的噪声而生成的。比较图3和图5中的基线3×128（VS + KW），FA率为0.5％时，HMM的FR率从5％FR翻倍到10％FR 。Deep KWS系统遭受类似的降级。但是，相对于基准而言，它可实现39％的相对改进。
我们提出了一种新的基于深度神经网络的关键字发现框架。实验结果表明，在干净和嘈杂的条件下，该框架均优于基于HMM的标准系统。我们进一步证明，仅用KW数据训练的Deep KWS模型比使用KW和VS数据训练的基线HMM KWS系统产生更好的搜索性能。Deep KWS系统还导致实现更简单，从而消除了对解码器的需求，减少了运行时计算，并且模型更小，因此受到我们嵌入式应用程序的青睐。
由于我们正在处理的检测应用程序仅需要实时的是/否决策，因此本文中提出的框架不会明确建模关键字结束时间。在将来的工作中，我们将扩展该方法以对关键字边界进行建模。