不要高估AI对人类语言的理解 我们需要承认深度学习的局限性( 三 )

使用神经网络 , 您可以提供大量的语音样本及其相应的文本 , 而不是编写规则 。 神经网络找到单词发音中的常见模式 , 然后“学习”将新的录音映射到其相应的文本 。 这些进步使许多服务能够为其用户提供实时转录服务 。 AI驱动的语音到文本有很多用途 。 Google最近推出了Call Screen , 这是Pixel手机上的一项功能 , 用于处理诈骗电话 , 并向您显示实时发言人的文字 。 YouTube使用深度学习提供自动隐藏字幕 。 但是AI算法可以将语音转换为文本这一事实并不意味着它能够理解它正在处理的内容 。

语音合成

语音到文本的另一面是语音合成 。 同样 , 这真的不是智力 , 因为它与理解人类语言的意义和背景无关 。 但它仍然是许多应用程序中不可或缺的一部分 , 这些应用程序以自己的语言与人类交互 。 就像语音到文本一样 , 语音合成已经存在了很长时间 。 我记得在90年代的实验室里第一次看到计算机化的语音合成 。

失去声音的ALS患者几十年来一直在使用该技术通过输入句子并让计算机为他们阅读来进行交流 。 盲人也使用技术阅读他们看不到的文字 。 然而在过去 , 计算机产生的声音听起来并不像人 , 而语音模型的创建需要数百小时的编码和调整 。 现在 , 在神经网络的帮助下 , 合成人声已变得不那么累赘了 。

推荐阅读