央视315曝光的AI骚扰电话:背后的技术与伦理( 五 )
输入语音先经过自动语音识别系统(ASR)处理,生成的文本会与上下文数据以及其它输入一起输入 RNN 网络,生成的应答文本再通过文本转语音(TTS)系统读出来。
Google联合使用了一个级联TTS引擎和一个生成式TTS引擎(其中使用了Tacotron和WaveNet),根据不同的情境控制语音的语调。这个系统还可以生成一些语气词(比如“hmmm”、“uh”),这也让语音变得更自然。
当级联TTS需要组合变化很大的语音单元,或者需要增加生成的停顿时,语气词就会被添加到生成的语音中,这就让这个系统可以以一种自然的方式向对方示意“是的,我正在听着”或者“我还在考虑”(人类说话的时候就经常在思考的同时发出一些语气词)。
Google的用户调查也确认了人类觉得带有语气词的对话更熟悉、更自然。另一方面,系统的延迟也要能够符合人类的说话特点。在某些情况下,系统甚至会采用快速逼近模型。使得系统达到100ms以内的延迟。
而从微软的技术声明中,也可看出,微软的所谓全双工语音交互技术Full-Deplex Voice和Google的Duplex在技术方面,应该是极其相似的。只不过,微软使用的生成模型是LSTM,而Google采用的是RNN网络。
推荐阅读
- 和平精英|和平精英SS16赛季开启时间、手册实装效果曝光、DBS首款皮肤上线!
- 绝地求生|PGC2021建设场地曝光,NH设立国内观赛区,4AM粉丝真就不看比赛?
- ag战队|AG首胜要来了!对阵WE首发曝光,月光不“整活”了,要做A组的王
- edg战队|EDG厂长上央视节目谈S11复出内幕:有必须复出的理由,就算被黑粉骂也不怕!
- edg战队|原神2.4卡池终于曝光,3位新老婆角色一起up,云堇是5星风属性主c角色!
- 地下城与勇士|DNF:11月版本活动曝光!盒子首次加入4种道具,奇迹缝纫机回归
- 炉石传说|炉石天梯平衡补丁曝光,任务法锁喉贼惨遭大削,BUG德无了!
- 百里守约|孙尚香新皮肤未开售,5史诗3传说皮肤曝光,守约芈月免费皮肤来袭
- 李白|自然之灵回归,瑶瑶公主新皮肤彩蛋曝光,李白迎来两款免费皮肤
- rts|《英雄联盟》衍生新作《联盟外传:海克斯失序》曝光扮演炸弹人制造音乐混乱!