百度超谷歌跃升全球第二，硬核语音技术成抢夺智能音箱“C位”的王牌( 八 )_：百度超谷歌跃升全球第二

进一步讲，该模型基于音节建模的核心优势在于，音节是人发音的逻辑单元，轨迹明确，是存在完整轨迹的最小单元，而不同音素之间的分界线非常模糊，容易让网络“困惑”。同时，音节的时长比状态和音素都要长，相比更不易受背景噪声、信道、场景、说话人等音素的影响，因此 Deep Peak2模型对数据多样性的兼容性更好。同时，比起粒度更大的建模单元，例如词，建模单元的数目适中，其建模单元也不会过大，能显著带来更快的解码速度。

后续，百度更针对现实场景中对于中英文混杂语音识别的需求，研发了基于Deep Peak2的中英文统一建模的音节模型，采用上下文无关的音节对中英文统一建模的方法，语音系统可通过中英文系统识别语音指令，并直接输出中英文识别结果和中文识别结果，融合后返回给用户。

Deep Peak 2 模型的再度进化：世界首个上线的端到端建模的SMLTA 模型

Deep Peak 2 模型之后，百度再度通过引入局部注意力和多级注意力，首创基于注意力（Attention）模型的端到端 SMLTA模型（流式多级的截断注意力模型），成功解决了高频查询的高精度要求问题。