声智科技CTO冯大航:AI章鱼系统架构在智慧城市的进展与应用( 五 )

其实语音识别在商业应用中受到一些阻力,比如手机上的语音助手应用的不是特别多。但在2014年亚马逊推出智能音箱以来,语音识别得到越来越多的关注,比如说房间的混响、旁边的背景噪声以及人声干扰,在这种情况下,其实信号处理是可以做一些工作的,比如我们可以利用麦克风阵列将目标声音和噪音区分开,从而让语音识别率有一个明显提升。

这里面便涉及到信号处理与语音识别的融合的过程,接下来我会举一个更简单的例子,当然可能更偏于学术一些,去解释一下背后更深层次的原因。

以混响为例,现在我在这里演讲,在座的观众听到我的声音其实是我本人的声音和经过强烈的反射后的声音的叠加,在数学上怎么表示呢?可以表示为一个纯净的信号经过房间重新响应得到混响的信号,可想而知,这样一定不会得到一个好的结果。现在一些学者们也在进行深入的研究,比如说让语音信号经过多种房间的重新响应再训练网络,我认为这也不是特别完美的一个过程。首先,即使在同一个房间里面每个点也是不同的,我们有很多的房间,这是很多种组合,相当于同一条语音,可能变化出非常多的一种方式,在这种情况下,让深度学习的网络去学习东西,效果会有所折扣。

推荐阅读