解密百度智能音箱小度：“听清、听懂、满足”背后的技术和能力( 二 )_：解密百度智能音箱小度：“听清、听懂

我们比较熟悉的ASR技术（Automatic Speech Recognition，语音识别），是将声音转化为文字，可类比于人类的耳朵；而TTS技术（Text-To-Speech，语音合成），是将文字转化为声音（朗读出来），类比于人类的嘴巴。大家在Siri等各种语音助手中听到的声音，都是由TTS来生成的，并不是真人在说话。

关于SMLTA，据公开信息，其是使用CTC(一种语音识别算法)的尖峰信息对连续语音流进行截断，然后在每一个截断的语音小段上进行当前建模单元的注意力建模；这样把原来的全局的整句Attention建模，变成了局部语音小段的Attention的建模；同时，为了克服CTC模型的不可避免的插入删除错误对系统造成的影响，该算法引入一种特殊的多级Attention机制，实现特征层层递进的更精准的特征选择；最终，这种创新的建模方法的识别率不但超越了传统的全局Attention建模，同时还能够保持计算量、解码速度等在线资源耗费和传统CTC模型持平。这也是第一次有公开报道,局部的Attention建模，有可能超过全局的Attention建模。

在听懂方面，其是指得到这个字符串之后是不是能理解用户的需求到底是什么，能够准确的给出响应，或者给出引导。比如小度在获得模糊需求（不清晰指令）的时候，它会尝试分析和校对自己的指令，以便更准确地满足用户的需求。其结合百度NLP的知识增强语义表示模型ERNIE，核心理解算法升级为超大数据预训练深度模型。