ICASSP 2014 Small( 二 ) _dnn

在图1的示例中，音频包含关键短语“ okay ” 。在这种情况下，DNN仅具有3个输出标签：“ okay”，“ ”和“ ”，并且生成（iii）中所示的帧级后验分数。后处理模块组合这些分数以提供该窗口的最终置信度分数。
2.1.
特征提取模块是我们建议的Deep KWS系统和基准HMM系统所共有的。
为了减少计算量，我们使用了语音活动检测系统，并且仅在语音区域中运行KWS算法。在[14]中描述的语音活动检测器使用13维PLP特征及其delta和-delta作为已训练的30分量对角协方差GMM的输入，GMM在每一帧都生成语音和非语音后验。随后是手动调谐状态机（SM），该状态机通过识别许多帧语音后验超过阈值的区域来执行时间平滑。
对于语音区域，我们基于在25 ms的窗口中每10 ms计算的40维对数滤波器组能量来生成声学特征。堆叠连续的帧以添加足够的左右上下文。输入窗口是不对称的，因为将来上下文的每个其他帧都会给系统增加10毫秒的延迟。对于我们的Deep KWS系统，我们使用10个将来的框架和30个过去的框架。对于HMM基线系统，我们使用5个将来的帧和过去的10个帧，因为这提供了准确性，延迟和计算之间的最佳权衡[15] 。

文章插图
2.2. Deep
深度神经网络模型是一个标准的前馈全连接神经网络，具有 ? 隐藏层和 ?每层隐藏节点，每个节点计算上一层输出的加权和的非线性函数。最后一层具有，其输出每个输出标签的后验估计。对于隐藏层，我们已经对常规逻辑和整流线性单位（ReLU）函数进行了实验[16]，并一致地发现ReLU在我们的开发集上优于逻辑，同时减少了计算量。我们仅提供ReLU激活的结果。
网络的大小也取决于输出标签的数量。在以下小节中，我们将详细描述神经网络的标签生成和训练。我们还描述了一种可以进一步提高KWS性能的学习技术。
对于我们的基线HMM系统，如先前的工作[8]，[9]和[17]一样，神经网络输出层中的标签是上下文相关的HMM状态。更具体地，基线系统使用如[15]中所述选择的2002上下文相关状态。
对于建议的Deep KWS，标签可以代表关键字/关键字短语中的整个单词或子单词单元。我们会报告带有完整字词标签的结果，因为这些词优于子字词单元。这些标签是在训练时使用我们的50M参数LVCSR系统[18]通过强制对齐生成的。使用整个单词标签作为网络的输出而不是HMM状态具有以下优点：（i）输出标签的库存较少，减少了最后一层中神经网络参数的数量，这在计算上很昂贵（ii）简单的后验可以使用处理方法来做出决定（如第2.3节中所述），（iii）假设训练数据对于所考虑的每个单词标签都足够，则整个单词模型可以实现更好的性能。
假设pij是第i个标签和第j个框架xj的神经网络（请参阅第2.1节），其中i取介于0,1，…，n?1之间的值，其中n为总标签数，0为非标签数 -关键词。通过最大化标记训练数据{xj，ij} j的交叉熵训练准则来估计深度神经网络的权重和偏差（上一段）。
优化与软件框架进行[19]，[20]，支持分布在深层神经网络多CPU计算。我们将异步随机梯度下降用于学习率，并且具有指数衰减。
转移学习是指这样的情况，其中（一些）网络参数已使用现有网络的相应参数进行初始化，并且没有从头进行训练[21]，[22] 。在这里，我们使用具有适当拓扑的深度神经网络进行语音识别，以初始化网络的隐藏层。培训中所有层均已更新。转移学习具有潜在的优势，即隐藏层可以通过利用大量数据并避免不良的局部最优来学习更好，更鲁棒的特征表示[21] 。在我们的实验中，我们发现情况确实如此。