ICASSP 2014 Small

会议: 2014
论文:Small-using deep
作者: Chen ;; Georg
我们的应用程序需要具有内存占用量小,计算成本低和精度高的关键字查找系统 。为了满足这些要求,我们提出了一种基于深度神经网络的简单方法 。训练深度神经网络以直接预测关键词或关键词的子词单元,然后采用后处理方法产生最终的置信度得分 。相对于基于竞争性的基于隐马尔可夫模型的系统,关键字识别结果实现了45%的相对改进,而在有杂音的情况下,性能则显示了39%的相对改进 。
由于智能手机和平板电脑的快速发展,使用语音与技术进行交互变得司空见惯 。例如,提供了在设备上通过语音搜索[1]的功能,而Apple的iOS设备配备了名为Siri的会话助手 。这些产品允许用户点击设备,然后说出查询或命令 。
我们有兴趣通过开发一个系统来连续不断地收听特定的关键字来启动语音输入,从而使用户拥有完全的免提体验 。这在开车等情况下尤其有用 。所提出的系统必须高度准确,低延迟,占用空间小,并且必须在计算受限的环境(例如现代移动设备)中运行 。在设备上运行系统避免了连接到服务器进行识别的延迟和功耗问题 。
关键字搜寻(KWS)旨在检测音频流中的预定义关键字,这是一种提供所需免提界面的潜在技术 。尽管大多数建议的方法都不适合计算受限环境中的低延迟应用,但在KWS中已有大量文献 。例如,几个KWS系统[2],[3],[4]假定使用大词汇量连续语音识别系统(LVCSR)进行音频的脱机处理以生成丰富的晶格 。在这种情况下,他们的任务集中在高效索引和搜索晶格中的关键字 。这些系统通常用于搜索大型音频内容数据库 。相反,我们专注于检测音频流中的关键字而没有任何延迟 。
关键字发现的常用技术是“关键字/填充程序隐马尔可夫模型”(HMM)[5],[6],[7],[8],[9] 。尽管最初是在二十多年前提出的,但它仍然具有很高的竞争力 。在这种生成方法中,针对每个关键字训练HMM模型,并根据语音信号的非关键字段(填充词)训练填充模型HMM 。在运行时,这些系统需要解码,根据HMM拓扑的不同,这在计算上可能会很昂贵 。最近的其他工作探索了基于大利润公式[10],[11]或递归神经网络[12]的关键字发现的判别模型 。,[13] 。这些系统显示出相对于HMM方法的改进 。但是,基于大幅度公式化的方法需要处理整个话语以找到最佳关键字区域,这会增加检测延迟 。我们也一直在研究用于关键词发现的递归神经网络,但是这项工作正在进行中,在本文中将不再讨论 。
我们提出了一种适用于移动设备的基于深度神经网络的简单判别式KWS方法 。我们将其称为Deep KWS 。训练深度神经网络以直接预测关键词或关键词的子词单元,然后采用后处理方法产生最终的置信度得分 。与HMM方法相比,该系统不需要序列搜索算法(解码),从而实现了更简单的实现,减少了运行时计算并减小了内存占用 。它还每10毫秒做出一次决定,从而最大程度地减少了等待时间 。我们显示,即使使用较少量的数据进行训练,Deep KWS系统在干净和嘈杂的测试集上也优于基于HMM的标准系统 。
我们将在第2节中介绍基于DNN的KWS框架,并在第3节中介绍基于基线HMM的KWS系统 。实验设置,结果和一些讨论将在第4节中介绍 。第五部分以结论结尾 。
DEEP KWS
Deep KWS框架如图1所示 。该框架包括三个主要部分:(i)特征提取模块,(ii)深度神经网络和(iii)后处理模块 。特征提取模块(i)执行语音活动检测,并每帧(10 ms)生成特征向量 。使用左上下文和右上下文堆叠这些特征以创建更大的向量,并将其作为输入馈送到DNN(第2.1节) 。我们训练DNN(ii),以根据堆叠特征预测每个输出标签的后验概率 。这些标签可以对应于关键字的整个词或子词(第2.2节) 。最后,一个简单的后处理模块(iii)将每帧产生的标签后代组合成用于检测的置信度得分(第2.3节) 。