百度输入法AI探索版: 人工智能时代工具应用转型启示录( 六 )

百度在使用“流式多级的截断Attention模型”之后 , 主要技术优势在三点 。

1、基于CTC的尖峰信息对语音流进行截断 , 然后再每一截断的语音小段上进行当前建模单元的注意力建模;

2、把全局的Attention的整句识别变成了局部的Attention的流式识别 , 并且引入多层的Attention , 实现特征层层递进的更精准的特征选择;

3、语音识别的识别率超越传统的全局Attention建模 , 同时计算速度和传统CTC技术持平 , 实现全CPU流量的大规模线上服务 。

另外在在离线语音识别领域 , 百度输入法还在持续优化Deep Peak 2系统 , 让离线语音输入相对准确率再次提升 。 这些内容听起来很专业 , 我们通俗解释的话就是 , 这使得语音的相对准确率提高了 , 而且用户可以说得更自由了 。

不管是流式多级的截断Attention模型以及优化Deep Peak 2系统 。 这些技术进展在逗未来在技术转化和产品落地上产生影响 。

推荐阅读