原创<br> 郭德纲out了,听自己的语音导航吧( 四 )

语音技术的跃进

这个功能主要应用了百度独创的风格迁移技术Meitron模型。

所谓风格迁移这个概念最早来源于图像领域的概念,简单说就是:将一张图片的艺术风格应用到另外一张图片上。

语音的风格迁移其实也被称作是“语音克隆”(voice clone)、“多说话人风格迁移”(multi-speaker)、“风格迁移”(style transfer)、“语音转换”(voice conversion)。

要知道语音的风格迁移非常困难。

因为深度网络对于语音处理困难。一来不如图像和文本领域研究火热,二来语音所具有的信息,难以编码到高维隐空间。一段语音时间序列中,混杂着以下方面的信息:说话人特征(如一个人的音色,音调等);语言学内容(语音表述的内容);副语言特征(如情感等)。

2017年,美国曾有一篇名为《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》的学术论文讲述风格迁移的问题。

推荐阅读