邓滨:信号处理+深度学习才能实现语音交互

本文来自小鱼在家首席音频科学家邓滨在 2018讲师热身分享 , 并由整理而成 。邓滨认为 , 传统的信号处理与前沿的深度学习技术结合 , 才能实现准确的语音交互 , 缺一不可 。
文 / 邓滨
整理 /
直播回放:
大家好 , 今天与大家分享的是新潮AI硬件中的传统语音信号处理技术 。
主要内容分为以下四个部分:
1、智能硬件语音交互的现实障碍
2、什么是语音前处理
3、信号处理 & 深度学习
4、语音前处理的变革演进
1、智能硬件语音交互的现实障碍
上图是美国著名科幻电影《钢铁侠》中的几个场景 , 可以说这部电影全面展现了未来先进人机语音交互的强大魅力 。在电影中 , 主角托尼·斯塔克拥有一套名叫“贾维斯”的虚拟智能管家 , 无论是在家中还是户外 , 抑或是身披战甲时托尼都可随意与其对话并发号施令 , 而这位虚拟管家的回复之自然如同一位真实存在的伙伴 , 不仅对命令的理解准确无误 , 还能对托尼的一些比较无厘头的笑话做出与真人类似的回应 , 这种强大的交互能力让每一位看过此片的观众都期待能够在现实中也拥有一位这样的虚拟智能管家 。实际上依赖当前的科技水平 , 在真实生活场景中实现如此自然的对话 , 仍是一件非常困难的事情 。本次分享不会涉及太多有关深度学习、神经网络、知识图谱的技术范畴 , 也不会过多讨论诸如ASR、IOP等有关自然语言理解能力的技术 , 而是主要关注语音信号的拾取优化 , 能否进一步提升未来自然语音交互的识别能力 。
以《钢铁侠》电影中的场景为例 , 在实际应用中 , 人机语音交互面临着诸多复杂的场景:
风噪、机械振动噪声:以钢铁侠战衣飞行为代表的应用场景 , 战衣飞行的速度越快 , 其产生的风噪与机械部件摩擦振动的噪声就越严重 。
枪林弹雨的爆炸声:以钢铁侠作战为代表的特殊场景 , 战斗时周围环境中的爆炸声会对拾音系统产生严重干扰 。
远场问题:以托尼的豪宅为代表的生活场景 , 如何保证托尼在宽敞大客厅中任何一个角落向虚拟管家下达的指令都能被准确拾取 。
混响问题:以“钢铁侠战衣”的密闭空间为代表的应用场景 , 此场景中声音会产生反弹折射从而造成混响干扰声音拾取 。
回声问题
如果以现实生活场景为例 , 用户与一个人工智能硬件设备进行人机对话会面临什么样的影响呢?
上图展示的是一个包括客厅、书房、阳台、各种家具在内的非常典型的普通家庭场景 , 其中存在多种能够为语音交互带来干扰的环境因素 。例如来自厨房的包括水流声、油烟机噪声、炒菜洗碗杂声在内的各种噪声;客厅中的人交谈说话、儿童游戏打闹的噪声;还有因远场和房间角落造成的混响 , 房间中的家用电器如空调、风扇、吸尘器、电视、音响等等发出的强烈噪声 , 窗外传来的包括汽车声、风声、雨声雷声在内的户外噪声等等 。即使我们实现了在理想环境中智能语音交互的强大性能 , 一旦在实际应用中涉及到如远场噪声、回声等问题 , 人机交互的性能就会急剧下降 。
为了进一步验证以上环境因素对智能语音识别系统的影响 , 我们使用智能音响进行了测试 。
上图是我们使用世界上最著名的智能音箱之一Echo 测试在不同噪声场景下唤醒性能波动的结果 , 测试方法如下:我们使用一百次100%可用的测试用例(在安静环境中距离设备非常近的条件下播放一百次唤醒指令并确保Echo唤醒成功率为100% 。则视此测试用例是可用的) , 并分别测试了添加七种不同类型噪声:安静、轻音乐、激烈歌曲、新闻联播、雷雨声、客厅综合噪声、厨房综合噪声;同时把声源与Echo之间的距离控制在1m与3.5m两个距离量 , 进行唤醒测试并统计其唤醒成功率 。通过测试可以发现 , 在安静的环境中 , 距离Echo 1m时唤醒成功率可保持91%左右 , 3.5m时则下降到72%;而在后续各种不同噪声环境中 , Echo的唤醒性能急剧下降 。实验结果基本验证了之前的推测:真实生活场景中的各种环境条件 , 的确会对人机交互识别造成不利影响 。除了 Echo , 我们还测试了 Home以及国内的一些智能助手 。除了以上环境变量之外 , 我们还选择了回声、远场、混响、不同角度等干扰场景 , 得到的性能曲线都是类似的 。