不要高估AI对人类语言的理解 我们需要承认深度学习的局限性( 四 )

该过程涉及使用生成对抗网络(GAN) , 这是一种AI技术 , 它将神经网络相互对立以创建新数据 。 首先 , 神经网络摄取人的语音的大量样本 , 直到它能够判断新的语音样本是否属于同一个人 。 然后 , 第二神经网络生成音频数据并通过第一个运行它以查看是否将其验证为属于主题 。 如果没有 , 则生成器更正其样本并通过分类器重新运行它 。 两个网络重复该过程 , 直到它们能够生成听起来自然的样本 。

有几个网站可以让您使用神经网络合成自己的声音 。 这个过程就像为它提供足够的语音样本一样简单 , 远远低于上一代技术所需的样本 。 这项技术有很多好的用途 。 例如 , 公司正在使用人工智能语音合成来增强他们的客户体验 , 并为他们的品牌提供自己独特的声音 。

在医学领域 , AI正在帮助ALS患者重新获得真正的声音 , 而不是使用计算机化的声音 。 当然 , 谷歌正在使用该技术实现其双工功能 , 以自己的声音代表用户拨打电话 。 AI语音合成也有它的不良用途 。 也就是说 , 它可以用于伪造 , 用目标人的声音拨打电话 , 或者通过模仿国家元首或高级政治家的声音来传播假新闻 。 如果一台电脑听起来像个人 , 那并不意味着它能理解它所说的内容 。

推荐阅读