原创<br> 百度语音的「一小步」，可能是语音技术「登月计划」的一大步( 三 )_：百度语音的「一小步」

但这个技术长期以来无法得以大规模应用。一方面，无法解决流式解码的问题，传统的注意力模型大都是基于整句的建模，比如 Google 的 LAS 模型就是其中的代表。整个建模过程需要通过云端/服务器的解码能力。这也意味着，当用户通过语音交互时，语音需要上传到云端，这对于移动设备的用户体验影响非常大。

另一方面，如上文所言，在传统的注意力模型里，一般是通过机器学习提取整句音频信息，也就是说语音输入的句子越长，进行特征选择的难度越大。出错的概率越高，而一旦某个环节出现错误，错误的传导还会进一步增加错误率，最终反映在用户体验上的感受则是，用户语音说完一段话后，机器完全理解不了。

这也是此次百度流式多级的截断注意力模型 SMLTA 所要解决的难题。主要包括两个重要的技术突破，其一，利用 CTC 语音识别算法，对连续语音进行自动截断，然后在这一系列语音小段的基础上搭建注意力模型。其二，引入一种特殊的多级Attention机制，实现特征层层递进的更精准的特征选择。

根据百度官方的说法，由于所有计算通过 CPU 实现，不需要额外增加GPU，整个云端的计算资源消耗与此前的语音模型持平。而在输入法精度上，大量数据测试结果显示，相对于早先的模型，相对准确率提升了 15%。

原创<br> 百度语音的「一小步」，可能是语音技术「登月计划」的一大步( 三 )