【专利解密】听说这项技术将会完全颠覆播音行业！( 二 )_集微网消息

这么厉害的技术，源自于新华社和搜狗科技的合作。语音合成技术又称文语转换(TTS ， Text-to-Speech)技术，即将文字转换为语音的技术，该技术赋予计算机像人一样自如说话的能力，使用户与机器之间的信息沟通更加舒服自然。

其实早在17年1月23日，搜狗就申请了一项名为“语音合成方法和装置、用于语音合成的装置”的发明专利（申请号为：201710051436 .7），申请人为北京搜狗科技发展有限公司。

下面就跟随小编一起了解一下这项神奇技术背后的细节吧。首先来看该设计的总体框架：

如上图所示是基于隐马尔可夫模型（HMM）的语音合成方法，其具体包括了训练阶段和合成阶段两部分。并且为了提高HMM模型的鲁棒性、复杂度和训练数据量之间的均衡性，其中还涉及到了决策树等机器学习方法。

训练阶段可以理解为人类从孩子时期开始学习语音，这时需要大量的素材来供学习以及要有人来监督小孩子的学习过程。对于语音合成训练阶段也同样是如此，从录音数据库中获取训练录音数据，并对训练录音数据进行参数提取，以得到对应的声学参数，该声学参数可以包括：频谱参数、基频参数和时长参数中的至少一种。这里面还包含着基于训练录音数据以及对应的文本生成标注信息。 HMM模型就根据这些参数来不断进行学习，训练得到一个较好的模型，来完成音频合成任务。