【专利解密】听说这项技术将会完全颠覆播音行业!( 二 )

这么厉害的技术 , 源自于新华社和搜狗科技的合作 。 语音合成技术又称文语转换(TTS , Text-to-Speech)技术 , 即将文字转换为语音的技术 , 该技术赋予计算机像人一样自如说话的能力 , 使用户与机器之间的信息沟通更加舒服自然 。

其实早在17年1月23日 , 搜狗就申请了一项名为“语音合成方法和装置、用于语音合成的装置”的发明专利(申请号为:201710051436 .7) , 申请人为北京搜狗科技发展有限公司 。

下面就跟随小编一起了解一下这项神奇技术背后的细节吧 。 首先来看该设计的总体框架:

如上图所示是基于隐马尔可夫模型(HMM)的语音合成方法 , 其具体包括了训练阶段和合成阶段两部分 。 并且为了提高HMM模型的鲁棒性、复杂度和训练数据量之间的均衡性 , 其中还涉及到了决策树等机器学习方法 。

训练阶段可以理解为人类从孩子时期开始学习语音 , 这时需要大量的素材来供学习以及要有人来监督小孩子的学习过程 。 对于语音合成训练阶段也同样是如此 , 从录音数据库中获取训练录音数据 , 并对训练录音数据进行参数提取 , 以得到对应的声学参数 , 该声学参数可以包括:频谱参数、基频参数和时长参数中的至少一种 。 这里面还包含着基于训练录音数据以及对应的文本生成标注信息 。 HMM模型就根据这些参数来不断进行学习 , 训练得到一个较好的模型 , 来完成音频合成任务 。

推荐阅读