ICASSP 2014 Small( 二 )


在图1的示例中,音频包含关键短语“ okay ” 。在这种情况下,DNN仅具有3个输出标签:“ okay”,“ ”和“ ”,并且生成(iii)中所示的帧级后验分数 。后处理模块组合这些分数以提供该窗口的最终置信度分数 。
2.1.
特征提取模块是我们建议的Deep KWS系统和基准HMM系统所共有的 。
为了减少计算量,我们使用了语音活动检测系统,并且仅在语音区域中运行KWS算法 。在[14]中描述的语音活动检测器使用13维PLP特征及其delta和-delta作为已训练的30分量对角协方差GMM的输入,GMM在每一帧都生成语音和非语音后验 。随后是手动调谐状态机(SM),该状态机通过识别许多帧语音后验超过阈值的区域来执行时间平滑 。
对于语音区域,我们基于在25 ms的窗口中每10 ms计算的40维对数滤波器组能量来生成声学特征 。堆叠连续的帧以添加足够的左右上下文 。输入窗口是不对称的,因为将来上下文的每个其他帧都会给系统增加10毫秒的延迟 。对于我们的Deep KWS系统,我们使用10个将来的框架和30个过去的框架 。对于HMM基线系统,我们使用5个将来的帧和过去的10个帧,因为这提供了准确性,延迟和计算之间的最佳权衡[15] 。

ICASSP 2014  Small

文章插图
2.2. Deep
深度神经网络模型是一个标准的前馈全连接神经网络,具有 ? 隐藏层和 ?每层隐藏节点,每个节点计算上一层输出的加权和的非线性函数 。最后一层具有,其输出每个输出标签的后验估计 。对于隐藏层,我们已经对常规逻辑和整流线性单位(ReLU)函数进行了实验[16],并一致地发现ReLU在我们的开发集上优于逻辑,同时减少了计算量 。我们仅提供ReLU激活的结果 。
网络的大小也取决于输出标签的数量 。在以下小节中,我们将详细描述神经网络的标签生成和训练 。我们还描述了一种可以进一步提高KWS性能的学习技术 。
对于我们的基线HMM系统,如先前的工作[8],[9]和[17]一样,神经网络输出层中的标签是上下文相关的HMM状态 。更具体地,基线系统使用如[15]中所述选择的2002上下文相关状态 。
对于建议的Deep KWS,标签可以代表关键字/关键字短语中的整个单词或子单词单元 。我们会报告带有完整字词标签的结果,因为这些词优于子字词单元 。这些标签是在训练时使用我们的50M参数LVCSR系统[18]通过强制对齐生成的 。使用整个单词标签作为网络的输出而不是HMM状态具有以下优点:(i)输出标签的库存较少,减少了最后一层中神经网络参数的数量,这在计算上很昂贵(ii)简单的后验可以使用处理方法来做出决定(如第2.3节中所述),(iii)假设训练数据对于所考虑的每个单词标签都足够,则整个单词模型可以实现更好的性能 。
假设pij是第i个标签和第j个框架xj的神经网络(请参阅第2.1节),其中i取介于0,1,…,n?1之间的值,其中n为总标签数,0为非标签数 -关键词 。通过最大化标记训练数据{xj,ij} j的交叉熵训练准则来估计深度神经网络的权重和偏差(上一段) 。
优化与软件框架进行[19],[20],支持分布在深层神经网络多CPU计算 。我们将异步随机梯度下降用于学习率,并且具有指数衰减 。
转移学习是指这样的情况,其中(一些)网络参数已使用现有网络的相应参数进行初始化,并且没有从头进行训练[21],[22] 。在这里,我们使用具有适当拓扑的深度神经网络进行语音识别,以初始化网络的隐藏层 。培训中所有层均已更新 。转移学习具有潜在的优势,即隐藏层可以通过利用大量数据并避免不良的局部最优来学习更好,更鲁棒的特征表示[21] 。在我们的实验中,我们发现情况确实如此 。