原创<br> 百度语音的「一小步」,可能是语音技术「登月计划」的一大步( 三 )

但这个技术长期以来无法得以大规模应用。一方面,无法解决流式解码的问题,传统的注意力模型大都是基于整句的建模,比如 Google 的 LAS 模型就是其中的代表。整个建模过程需要通过云端/服务器的解码能力。这也意味着,当用户通过语音交互时,语音需要上传到云端,这对于移动设备的用户体验影响非常大。

另一方面,如上文所言,在传统的注意力模型里,一般是通过机器学习提取整句音频信息,也就是说语音输入的句子越长,进行特征选择的难度越大。出错的概率越高,而一旦某个环节出现错误,错误的传导还会进一步增加错误率,最终反映在用户体验上的感受则是,用户语音说完一段话后,机器完全理解不了。

这也是此次百度流式多级的截断注意力模型 SMLTA 所要解决的难题。主要包括两个重要的技术突破,其一,利用 CTC 语音识别算法,对连续语音进行自动截断,然后在这一系列语音小段的基础上搭建注意力模型。其二,引入一种特殊的多级Attention机制,实现特征层层递进的更精准的特征选择。

根据百度官方的说法,由于所有计算通过 CPU 实现,不需要额外增加GPU,整个云端的计算资源消耗与此前的语音模型持平。而在输入法精度上,大量数据测试结果显示,相对于早先的模型,相对准确率提升了 15%。

推荐阅读