原创<br> 百度语音的「一小步」,可能是语音技术「登月计划」的一大步( 四 )

更重要的是,这不仅是业界第一次提出了流式多级的截断注意力模型 SMLTA,也在全球范围内,实现了基于注意力模型的在线语音识别服务的首次规模化应用。百度已成功将这种注意力模型部署上线到语音输入法全线产品,服务中国数亿用户,也因此,此次技术突破不再仅仅是一个实验室技术的展现,而是成为一个个普通用户都可以享受的技术红利。

02 . 赋能:从内到外

一年前,基于 Deep Peak 2模型的语音模型,大幅提升了不同场景下语音识别的准确率。而此次输入法升级还带来了离线语音、中英混合输入、普通话方言混合输入的升级。

这其中,离线语音识别的场景最特殊。由于语音识别需要网络的支持,当没有网络或者网络稳定的时候,常常出现语音识别成功率低、识别速度慢等情况。

虽然通过离线语音已解决一部体验问题,但过去离线语音与在线语音相比,准确率相差悬殊,体验得不到根本解决。针对这一场景,百度语音技术团队优化了输入法上嵌入式识别的 deep peak2系统,大幅提升了离线语音识别准确率。目前百度输入法离线语音输入准确率已高于行业平均水平35%,使得用户可以在没有网络的场景里流畅快速使用。

推荐阅读