原创<br> 百度语音的「一小步」,可能是语音技术「登月计划」的一大步( 二 )

接下来,本文将从此次公布的流式多级的截断注意力模型入手,揭秘这项技术背后的意义,同时结合语音技术赋能百度其他产品线的案例,进一步探讨这家公司的 AI 战略方向。

01 . 技术突破:学术界一大难题的落地

过去几年,AI 被诟病的一大原因就是技术落地困难,一项实验室的技术即便再怎么先进,倘若无法再商业化的场景里得以应用,多少都有些当代「屠龙术」的意味。

比如语音领域的注意力模型(Attention模型)。

注意力模型是一种基于对一句话里每个音节或汉字音频特征的机器学习模型。通过机器学习的方法,将音频特征自动挖掘出来。也就是说,这种方法下的语音识别过程,变成了一个字一个字的滚动生成过程。

原创<br> 百度语音的「一小步」,可能是语音技术「登月计划」的一大步

由于摆脱了传统语音识别的状态建模和按语音帧进行解码,该模型可以直接实现语音和文本一体化的端到端建模,拥有学术界公认的建模精度。

推荐阅读