ICASSP 2014 Small( 三 )


2.3.
在第2.2节中解释的DNN 会生成基于帧的标签后验 。在本节中,我们讨论将DNN后代组合到关键字/关键字短语置信度分数中的简单但有效的方法 。如果可信度超过某个预定阈值,则将做出决定 。我们描述假设单个关键字的置信度计算 。但是,可以轻松修改它以同时检测多个关键字 。
HMM KWS
【ICASSP 2014Small】我们实现了标准的关键字填充器隐马尔可夫模型作为基准 。基本思想是为关键字创建一个HMM,并创建一个HMM来表示语音信号(填充模型)的所有非关键字段 。填充模型有多种选择,从完全连接的语音单元[6]到完整的LVCSR系统,其中词典排除了关键字[23] 。显然,后一种方法可以产生更好的填充模型,但是在运行时需要较高的计算成本,并且内存占用量也要大得多 。考虑到我们应用程序的限制,我们实现了一个基于三音机的HMM模型作为填充器 。与先前的工作[6],[23]相反,我们的实现使用了深度神经网络来计算HMM状态密度 。
图2显示了- HMM拓扑 。通过使用此拓扑运行解码并检查最佳路径是否通过关键字HMM,可以实现关键字检测 。错误警报(不存在关键字,但KWS系统给出肯定的决定)和错误拒绝(存在关键字,但KWS系统给出否定的决定)之间的权衡,是由关键字和填充模型之间的转换概率控制的 。高的转移概率导致高的虚警率,反之亦然 。
-模型的一个重要优点是在训练时它不需要特定于关键字的数据 。它只是通过一般语音数据的似然最大化简单地学习了所有三音机HMM状态的生成模型 。关键字的知识只能在运行时通过在解码器图中指定关键字来引入 。但是,如果可以使用关键字特定的数据进行训练,则可以使用转移学习(第2.2节)来提高系统性能,即,通过使用在通用语音数据上训练过的网络初始化声学模型网络,然后继续使用关键字来对其进行训练特定的数据 。
实验是在一个数据集上进行的,该数据集结合了真实的语音搜索查询(作为否定示例)和短语(包括关键字),有时还包含查询(作为肯定示例) 。表1中显示了所评估的关键字的完整列表 。我们训练了一个单独的Deep KWS,并为每个关键短语构建了一个单独的- HMM KWS系统 。结果以修改后的接收器工作特性(ROC)曲线的形式呈现,其中我们用Y轴上的错误拒绝率代替了真实的阳性率 。曲线越低越好 。通过扫描图2中关键字HMM路径的转移概率来获得基线系统的ROC 。。对于Deep KWS系统,可通过扫描置信度阈值来获得ROC 。我们为每个关键字生成一条曲线,并将所有测试的关键字垂直(以固定的FA率)平均化 。以0.5%的FA率进行详细比较,这是实际应用中的典型工作点 。
我们将Deep KWS系统和HMM系统与具有不同大小的神经网络进行比较(第4.3节),评估两个系统的迁移学习效果(第4.2节),并在存在 noise的情况下显示性能变化(第4.4节) 。
4.1. Data
我们使用两组训练数据 。第一组是通用语音语料库,由3,000个小时的手动转录语音(称为VS数据)组成 。第二组是关键字特定数据(称为KW数据),其中包括每个关键字约2.3K的训练示例和133K否定示例,其中包括匿名语音搜索查询或其他短短语 。对于关键字“ okay”,有40K个积极示例可供培训 。
评估集包含每个关键字大约1K个肯定示例和70K个否定示例,占正负比率的1.4%,以匹配预期的应用程序使用情况 。同样,对于关键字“ okay”,我们使用了2.2K个正面示例 。噪声测试集是通过向该测试集添加10db信噪比(SNR)的噪声而生成的 。最后,我们使用正样本和负样本的大小相似的不重叠集合作为开发集来调整解码器参数和DNN输入窗口大小参数 。