央视315曝光的AI骚扰电话:背后的技术与伦理( 五 )

央视315曝光的AI骚扰电话:背后的技术与伦理

输入语音先经过自动语音识别系统(ASR)处理,生成的文本会与上下文数据以及其它输入一起输入 RNN 网络,生成的应答文本再通过文本转语音(TTS)系统读出来。

Google联合使用了一个级联TTS引擎和一个生成式TTS引擎(其中使用了Tacotron和WaveNet),根据不同的情境控制语音的语调。这个系统还可以生成一些语气词(比如“hmmm”、“uh”),这也让语音变得更自然。

当级联TTS需要组合变化很大的语音单元,或者需要增加生成的停顿时,语气词就会被添加到生成的语音中,这就让这个系统可以以一种自然的方式向对方示意“是的,我正在听着”或者“我还在考虑”(人类说话的时候就经常在思考的同时发出一些语气词)。

Google的用户调查也确认了人类觉得带有语气词的对话更熟悉、更自然。另一方面,系统的延迟也要能够符合人类的说话特点。在某些情况下,系统甚至会采用快速逼近模型。使得系统达到100ms以内的延迟。

而从微软的技术声明中,也可看出,微软的所谓全双工语音交互技术Full-Deplex Voice和Google的Duplex在技术方面,应该是极其相似的。只不过,微软使用的生成模型是LSTM,而Google采用的是RNN网络。

推荐阅读