百度超谷歌跃升全球第二,硬核语音技术成抢夺智能音箱“C位”的王牌( 八 )

进一步讲,该模型基于音节建模的核心优势在于,音节是人发音的逻辑单元,轨迹明确,是存在完整轨迹的最小单元,而不同音素之间的分界线非常模糊,容易让网络“困惑”。同时,音节的时长比状态和音素都要长,相比更不易受背景噪声、信道、场景、说话人等音素的影响,因此 Deep Peak2模型对数据多样性的兼容性更好。同时,比起粒度更大的建模单元,例如词,建模单元的数目适中,其建模单元也不会过大,能显著带来更快的解码速度。

后续,百度更针对现实场景中对于中英文混杂语音识别的需求,研发了基于Deep Peak2的中英文统一建模的音节模型,采用上下文无关的音节对中英文统一建模的方法,语音系统可通过中英文系统识别语音指令,并直接输出中英文识别结果和中文识别结果,融合后返回给用户。

Deep Peak 2 模型的再度进化:世界首个上线的端到端建模的SMLTA 模型

Deep Peak 2 模型之后,百度再度通过引入局部注意力和多级注意力,首创基于注意力 (Attention)模型的端到端 SMLTA模型(流式多级的截断注意力模型),成功解决了高频查询的高精度要求问题。

推荐阅读