百度地图定制语音功能上线,会成为下一个刷屏功能吗?( 九 )

这一次推出的“语音定制” , 技术难度同样非常大 。

语音的合成看上去只有几步骤 , 二十分钟的事情 , 实际上却是非常非常难的 。 传统明星语音包定制需要在大库基础之上录制1000到2000句语音 。 百度语音定制只能通过20个句子 , 来理解用户的音色、风格、情绪、语调、语速、习惯——要用户录制太多、花时间太多 , 门槛高了就没意义了 。

传统明星语音定制要在专业录音棚录制几周时间 , 现在用户各自的环境变得非常复杂 , 噪音是免不了的问题 , 如何降噪 , 是一个难题 。

原先合成明星语音包是一个庞大的团队针对一个人来做定制 , 现在是将这个流程变得标准化、大众化和自动化 , 生产周期则从原先的数月压缩到数分钟 , 技术挑战可想而知 。

儿童录音是一个重要的场景 , 然而儿童往往会面临发音不清晰、停顿不规律、普通话不标准等问题 , 比成人的录音更难处理 。

百度地图基于百度大脑的AI能力 , 成功克服了这些难题 , 百度语音首席架构师贾磊在发布会现场进行了解释:“百度地图语音定制功能基于百度独创的说话人韵律迁移技术Meitron , 其特点主要体现在发音人音色转换 , 多情感朗读和韵律风格迁移三个方面 , 从而让个性化语音合成的定制门槛大大降低 。 ”

推荐阅读