邓滨:信号处理+深度学习才能实现语音交互( 三 )


3、信号处理VS深度学习
接下来我将会讲述信号处理与深度学习的关系 。可以说这两者中的前者算是传统学科 , 后者算是前沿学科 。首先需要提出以下几个问题:深度学习+大数据能否解决所有的语音干扰问题?深度学习时代的前端数字信号处理技术是否已经过时?深度学习是数字信号处理的终结吗?仅针对干扰的模型训练能够有效识别并去除干扰吗?之前我参与了有关深度学习时代信号处理没有意义的讨论 , 对此观点的结论是否定的 。
为什么深度学习不可能代替信号处理?我们在现实生活中面临以下几大问题:
第一大问题是噪声问题 。噪声分为平稳噪声与非平稳噪声 , 平稳噪声指的是特性相对平稳 , 以日常生活中的一些如白噪声、驾驶汽车匀速行驶时发动机的声音、风噪等频率特性、时变特性比较平稳的理想噪声为例;而非平稳噪声则与之相反 , 比较典型的例子是人说话声、KTV音乐等等 。
【邓滨:信号处理+深度学习才能实现语音交互】第二大问题是回声问题 , 例如一个智能音箱正在播放歌曲 , 此时音响上的麦克风也正在工作并处于随时等待被主人唤醒的待命状态 。这时 , 用户会希望与智能音箱进行语音交互时麦克风不会混淆拾取到的自己发出的指令声与音响喇叭放出的音乐声 , 此时对于用户发出的语音指令来说此音箱喇叭发出的声音就被称为“回声”;在实践中音响必须滤除此回声并保留来自用户有效的指令声才能对用户的指令做出正确反应 。也许有些人会认为这与噪声类似 , 实际上二者并不一样 , 处理方法也不尽相同 。
第三大问题是远场问题 。用户距离智能音响比较近时可获得较为准确的语音识别体验;而一旦用户距离智能音响较远 , 其语音交互的性能就会急剧下降并影响用户使用智能音箱的良好体验 。
第四大问题是混响问题 。当将此设备摆放在墙角或较为空旷的房间时 , 用户发出的有效指令声经过此房间的墙壁折射反弹多次后被设备的麦克风拾取 , 麦克风会收到混合在一起的多个不同时间延迟下的指令声音 , 这种混响多次的指令也会为语音识别带来巨大干扰 。
第五大问题是声音定位 。围绕在此设备周围360度空间内的任何方位都有可能成为用户指令的声源位置 , 声音定位的目的就是瞄准用户指令声源所在的角度并进行波束集中 , 有效提高声音拾取的准确性 。
那么这些问题可以用深度学习来有效解决吗?
平稳噪声:可以解决

邓滨:信号处理+深度学习才能实现语音交互

文章插图
方法是针对一个干扰模型进行大量训练 。例如在训练最初时向语音识别系统输入大量加噪的语料 , 这里的“加噪”是指加入明确希望去除的噪声类型如风噪、汽车噪声等 。将此噪声提前模拟并加入训练后得到的识别系统可准确识别此噪声的声学特性 , 这样就可得到能够识别并处理真正含有此噪声语料的语音识别系统 , 增强它的鲁棒性 , 更有效地去除平稳噪声对有效语音的影响 。
非平稳噪声:部分解决
即使绝大多数非平稳噪声无法被捕捉特性 , 但仍然存在少量非平稳噪声可被捕捉到特性 , 我们可以通过深度学习训练解决这部分非平稳噪声的干扰问题 。
混响问题:部分解决
如果我们确定了某房间的混响模型 , 例如这间房间的空旷程度、长宽高、墙壁的材质、设备在房间中摆放的位置等 , 那么声音在此房间中传递、反弹再传递到设备的时长、混响效果与混响模型就是确定的 , 就能将其结合深度学习从而解决混响问题;如果这些场景发生了改变 , 那么相对应的混响模型就需要进行改变 。