5G穹顶,百度AI拔剑——百度AI开发者大会最火爆分论坛侧记( 五 )

5G穹顶,百度AI拔剑——百度AI开发者大会最火爆分论坛侧记

简单来说,在 5G 应用场景爆发的前夜,百度在“软”和“硬”两方面已经具备了强大的技术优势和跨平台跨场景的整合能力。

先说说百度的听和说。

无论是家居、车内还是工业生产等场景,腾出双手的语音交互无疑是最佳的交互方式。但具体到实际使用场景,则面对准确性与效率两大门槛。

而百度通过流式多级的截断注意力建模(SMLTA)方法,使得识别准确率相对于上一代的 Deep Peak 2 提升了 15%。不仅可以准确识别长句,即使中英文混合语音也能实现极高的准确率。百度语音技术部高级总监高亮的那段“Rap”就是极好的范例。

现在的百度语音识别技术已经能够做到从感知层到识别层,并且能够做到中文化混合识别。

关于说。百度发布了风格迁移的语音合成技术 Meitron。通过基于整个音库独立输出音色、韵律和情绪三个网络,百度 AI 不仅做到了声音“像”,还有风格的高度高度相似。目前仅用 20 句话即可制作专属声音。

推荐阅读