国内智能语音行业分析报告(12)_：国内智能语音行业分析报告伴随着人工

文本处理：

这一步做的事情是把文本转化成音素序列，并标出每个音素的起止时间、频率变化等信息。

作为一个预处理步骤，它的重要性经常被忽视，但是它涉及到很多值得研究的问题，比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定，等等。

音素：音素(phone)，是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音、辅音两大类。音节：音节在语音学上指由一个或数个音素组成的语音结构基本单位;而音素是最小的语音单位。如”普通话”，由三个音节组成，可以分析成”p, u, t, o, ng, h, u, a”八个音素。语音合成：

狭义上这一步专指根据音素序列（以及标注好的起止时间、频率变化等信息）生成语音，广义上它也可以包括文本处理的步骤。

这一步主要有三类方法：

拼接法，即从事先录制的大量语音中，选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等；为了追求合成语音的连贯性，也常常用使用双音子（从一个音素的中央到下一个音素的中央）作为单位。拼接法合成的语音质量较高，但它需要录制大量语音以保证覆盖率。参数法，即根据统计模型来产生每时每刻的语音参数（包括基频、共振峰频率等），然后把这些参数转化为波形。参数法也需要事先录制语音进行训练，但它并不需要100%的覆盖率。参数法合成出的语音质量比拼接法差一些。声道模拟法。参数法利用的参数是语音信号的性质，它并不关注语音的产生过程。与此相反，声道模拟法则是建立声道的物理模型，通过这个物理模型产生波形。这种方法的理论看起来很优美，但由于语音的产生过程实在是太复杂，所以实用价值并不高。三、智能语音主要公司介绍