央视315曝光的AI骚扰电话：背后的技术与伦理( 五 )_一年一度的央视315“晚会”

输入语音先经过自动语音识别系统（ASR）处理，生成的文本会与上下文数据以及其它输入一起输入 RNN 网络，生成的应答文本再通过文本转语音（TTS）系统读出来。

Google联合使用了一个级联TTS引擎和一个生成式TTS引擎（其中使用了Tacotron和WaveNet），根据不同的情境控制语音的语调。这个系统还可以生成一些语气词（比如“hmmm”、“uh”），这也让语音变得更自然。

当级联TTS需要组合变化很大的语音单元，或者需要增加生成的停顿时，语气词就会被添加到生成的语音中，这就让这个系统可以以一种自然的方式向对方示意“是的，我正在听着”或者“我还在考虑”（人类说话的时候就经常在思考的同时发出一些语气词）。

Google的用户调查也确认了人类觉得带有语气词的对话更熟悉、更自然。另一方面，系统的延迟也要能够符合人类的说话特点。在某些情况下，系统甚至会采用快速逼近模型。使得系统达到100ms以内的延迟。

而从微软的技术声明中，也可看出，微软的所谓全双工语音交互技术Full-Deplex Voice和Google的Duplex在技术方面，应该是极其相似的。只不过，微软使用的生成模型是LSTM，而Google采用的是RNN网络。

央视315曝光的AI骚扰电话：背后的技术与伦理( 五 )