AI语音技术:行善还是作恶?( 二 )

前者是向善和行善,后者是从恶和行恶。

AI的变声技术是一种逼真的语音合成技术,它的基础是神经网络和机器学习。

神经网络模仿电信号在人脑神经元之间的传送过程,对输入数据中止处置,从大量样本数据中总结出共同特征,再经过机器学习模仿特定人的声音,抵达以假乱真的效果。

显然,这样的变音技术有很多用武之地,凡是能够采用语音或有声效劳的中央,都可能取得这类效劳和应用,如语音交互、有声读物、新媒体、智能客服、大众文娱等。

不过,AI变声技术的短板也是显著的,假如有人应用这种技术向任何特定的人打电话以扮演其亲人、朋友、同事、上级的声音,就会让人难以辨别真假。

不过,与AI变声技术相似的另一种AI语音技术似乎向善的成分大一些,这就是“讲话到面孔”技术,也可称为“闻声识人”技术。

研讨人员设计了一种智能软件,把网上搜集的数百万段教学和音像视频中的每个人的面部特征与其讲话的声音特性匹配和相联,构成一种可供计算机学习的大数据,经过深度学习,这种智能软件仅仅经过听一个人的声音就能够画出(显现)其容颜,而且八九不离十,但是,往常这种软件还不成熟。

推荐阅读