解密百度智能音箱小度:“听清、听懂、满足”背后的技术和能力( 二 )

我们比较熟悉的ASR技术(Automatic Speech Recognition,语音识别),是将声音转化为文字,可类比于人类的耳朵;而TTS技术(Text-To-Speech,语音合成),是将文字转化为声音(朗读出来),类比于人类的嘴巴。大家在Siri等各种语音助手中听到的声音,都是由TTS来生成的,并不是真人在说话。

关于SMLTA,据公开信息,其是使用CTC(一种语音识别算法)的尖峰信息对连续语音流进行截断,然后在每一个截断的语音小段上进行当前建模单元的注意力建模;这样把原来的全局的整句Attention建模,变成了局部语音小段的Attention的建模;同时,为了克服CTC模型的不可避免的插入删除错误对系统造成的影响,该算法引入一种特殊的多级Attention机制,实现特征层层递进的更精准的特征选择;最终,这种创新的建模方法的识别率不但超越了传统的全局Attention建模,同时还能够保持计算量、解码速度等在线资源耗费和传统CTC模型持平。这也是第一次有公开报道,局部的Attention建模,有可能超过全局的Attention建模。

在听懂方面,其是指得到这个字符串之后是不是能理解用户的需求到底是什么,能够准确的给出响应,或者给出引导。比如小度在获得模糊需求(不清晰指令)的时候,它会尝试分析和校对自己的指令,以便更准确地满足用户的需求。其结合百度NLP的知识增强语义表示模型ERNIE,核心理解算法升级为超大数据预训练深度模型。

推荐阅读