Nature:华裔科学家成功解码脑电波,AI直接从大脑中合成语音( 五 )
上图B中,Anumanchipalli等人开发了一种不同的方法,RNN被用于两阶段解码。其中一个解码步骤是将神经信号转换成声道发声器官(红色)的预估运动,涉及到语音生成的解剖结构(嘴唇、舌头、喉部和下颌)。为了在第一个解码步骤中进行训练,作者需要每个人的声道运动与他们的神经活动关联起来的数据。
因为无法直接测量每个人的声道运动,Anumanchipalli等人构建了一个RNN来预估这些运动,其训练数据是之前收集的大量声道运动数据和语音录音。这个RNN产生的声道运动估计足以训练第一个解码器。第二个解码步骤将这些估计的动作转换成合成语音。Anumanchipalli和他的同事的两步解码方法产生的口语句子的失真率明显低于直接解码方法获得的句子。
与直接解码声学特征相比,作者采用的两阶段解码方法能明显减小声音失真。如果可以获得跨多种语音条件的海量数据集,那么直接合成可能会接近或优于两阶段解码的方法。
然而,考虑到现实中数据集的匮乏,解码的中间阶段会将声道发音器官正常运动功能的信息带入模型,并限制必须评估的神经网络模型的可能参数。这种方法似乎使神经网络能够实现更高的性能。最终,反映正常运动功能的“仿生”方法可能在复制自然语言典型的快速、高精度通信方面发挥关键作用。
推荐阅读
- 华为|美国禁令是“纸老虎”?中科院顶尖科学家发话了,致力粉碎美计划
- 狮子的“指纹”在哪?通过看脸,科学家改进亚洲狮种群监测方式
- 知道自己为什么不能成功吗 科学家终于找到实现目标的秘诀
- 时间胶囊!在南极冰下5公里发现“磁异常”,科学家:地壳变薄了
- 央视5直播匈公赛,伊藤美诚对阵丁宁苦主,平野对阵华裔削球手
- 已“灭绝”100年巨龟再次出现!科学家:需警惕第六次大规模灭绝
- 宇宙网络真的存在吗?科学家们一直无法实现对这些细丝的直接观测
- 如果病毒饶过人类,人类也放过蝙蝠可好?科学家:建议放手
- 宇宙最高级文明,到底掌握什么高科技?科学家:我们想象不出来
- 中国国宝级科学家,为国建造“地下钢铁长城”,将800万奖金无偿捐献