解码活动具有重要的科学意义,其在科学领域有很多用处


解码活动具有重要的科学意义,其在科学领域有很多用处


文章图片


解码活动具有重要的科学意义,其在科学领域有很多用处


文章图片


解码活动具有重要的科学意义,其在科学领域有很多用处


文章图片


赫夫等人的某系统是一个工作系统的第一个演示 , 该系统将从广泛分布的大脑区域推断出的明显语音意图直接转录成文本 , 单词和电话错误率在百分之二十五到百分之六十之间十到一百个单词的词汇量分别为百分之五十到百分之八十 。 尽管它们的表现相对温和 , 但它可以作为一个有用的基准来了解性能如何随着词汇量的增加而扩展 。   


此外 , 后续分析表明 , 这些高于机会的结果扩展到仅使用预发活动进行解码 , 根据作者 , 这是解码隐蔽语音意图的粗略模拟 , 随后是与摩西等人一起进行的两项研究 。 穆斯等人的NSR系统利用空间和时间信息并结合语言建模和顺序路径概率提高了神经语音解码性能和句子可以使用独特的在线分块再训练和分类方案以百分之九十的准确率分类 , 词汇量有限 , 只有十个句子 。       


尽管尚不清楚这些结果在预训练模型中的泛化程度如何 , 但鉴于神经语音解码方法的进一步改进 , 实时高性能解码可能是可能的 。 迄今为止 , 语音脑机接口已经使用了多种频谱特征提取和分类方法 。 典型方案包括首先通过快速傅里叶变换、带通滤波器组或小波变换从每个通道中提取特定频带中的频谱能量 。 尽管由于其公式 , 每种方法都有自己的设计权衡 , 但快速傅里叶变换、带通滤波器和小波方法最终在数学上是等效的 。       


然后将这些提取的特征回归到目标语音的语义、听觉或发音参数化 , 或者用于逐帧或整个试验对话语进行分类 。 回归和分类可以使用多种算法来完成 , 从简单的支持向量机或线性判别分析到复杂的隐马尔可夫模型或深度神经网络 。 然而 , 所有这些算法最终都实现了相同的目标 , 即学习如何准确且一致地将受试者神经活动的某些参数化转换为相应语音信号的参数化 , 无论其是否包含可输入语音合成器的特征或者只是描述组成该语音的单词的标签 。       


利用多个级别的语音和语言表示可以进一步提高语音脑机接口的性能 。 博克莱等人在概念验证研究中概述了这种方法 , 其中受试者被训练控制具有公开和半公开语音范式的语音合成器 , 同时进行电磁关节造影记录 , 该记录被输入深度神经网络以将发音映射到相应的声学输出 。 这项研究通过补偿传感器位置的差异和新说话者和参考说话者之间的发音差异 , 证明了元音和辅音的可理解、实时合成 。       


尽管他们的方法没有用神经数据进行测试 , 但作者建议无需进行广泛的再训练就可以解释解剖学差异 , 并且可以从记录的神经活动中推断出来自电磁关节造影活动的参数 。 布沙尔等人研究了这种方法与皮层脑电图的可行性 。 科南特等人使用高伽马波段中的活动解码了来自腹侧感觉运动皮层的公开语音期间的声道运动学 , 以及赫夫等在来自外侧颞上回周围的公开语音期间解码语音频谱图 , 还使用高伽马波段中的活动 。       


【解码活动具有重要的科学意义,其在科学领域有很多用处】两者都表明 , 解码活动可用于重新合成与原始语音信号高度相关的语音 , 前者表明使用解剖信息可以比使用传统方法更准确地解码元音 。 迄今为止最成功的示范可以说是阿克巴里和米尔萨普等人 。 阿克巴里等人证明可以从初级听觉皮层重新合成高度可理解的语音;最佳性能是使用深度学习、低频和高频信息以及声码器目标实现的 , 与线性分类器、频谱图目标基线相比 , 它提供了百分之七十五的可理解性和百分之六十五的相对改进 。

    推荐阅读