电极|无声交流未来可期: 加州伯克利分校用电极和AI检测“无声语音”

From: VentureBeat;编译: Shelly
无法发声的人现在也可以“说话”了!近日 ,加州大学伯克利分校的研究人员称 ,通过静音发声和收集肌肉活动的传感器 , 他们能捕捉“空气中消失的声音” 。 在这一过程中 , 电极放置在用户的面部和喉部 , 无声讲话的内容通过肌电图(EMG)检测 , 该模型使用数字语音来预测单词并生成合成语音 。
研究人员认为 , 他们的方法可以为发声障碍患者开发许多应用程序 , 支持人工智能助手或对声控设备进行语音检测 。
近日 , 加州大学伯克利分校的研究人员表示 , 他们开始为无声语音开发人工智能 , 使用的是为无声语音收集肌肉活动的传感器 。 事实上 , 伯克利也是第一个采用收集肌肉活动的传感器来转换语音信号的 。
“无声语音”AI:
应用广泛、发展潜力巨大
在他们的研究中 , 一种能够检测“无声语音”的AI已初具模型 , 它利用数字语音功能来预测单词、生成语音 。 检测无声语音 (或称为沉默语音) 的AI模型将电极放于失语者脸部和喉咙 , 通过肌电图 (EMG) 的信号来合成语音 。

电极|无声交流未来可期: 加州伯克利分校用电极和AI检测“无声语音”
文章图片

开发“无声语音”AI的研究团队指出 , 通过数字方式解读无声语音具有广泛的应用 。 例如 , 它可以推动生产类似于蓝牙耳机的设备 , 一旦语音实现了数字模式 , 个人通话的时候便不会打扰到周围的人 。 当环境太嘈杂以致无法捕获语音 , 或是用户所在场合要求保持安静时 , 这种设备将非常有用 。
研究人员表示 , 这个帮助解读无声语音的模型能服务于发声障碍者的需求 , 让更多的应用程序为失语者人群服务 , 既有助于相关人工智能的发展 , 也有助于其他响应语音命令的设备的升级 。
关于“无声语音”AI的运算方法 , 研究人员首先要将音频目标转化为无声信号 , 然后 , 使用WaveNet解码器生成音频语音预测 。
在收集数据时 , 研究者会先在实验者的面部等部位贴8个贴片 , 每个贴片都是一个“监视肌肉变化”的传感器 。
与用发声肌电数据训练的基线相比 , EMG方法在转录句子时的单词错误率降低了64%到 4% ,错误率比基线减少了95% 。 此外 , 为了推动这一领域的进一步研究 , 研究人员还开发了一个用近20小时面部肌电数据组成的数据集 。
帮助听障者“听声”
最近 , 阿里巴巴、浙江大学和斯蒂文斯理工学院的研究人员联合开发了一种算法——LIBS (Lip by Speech), 其准确度达到了行业领先水平 。 训练辅助数据除了LRS2数据库以外 (包含45,000条来自BBC的45,000多个口头句子), 还有最大的普通话唇语语料库CMLR (包含中国网络电视台网站中的100,000多个自然句子、3,000多个汉字和20,000个词组), 能够实现实时中英复述 。
然而模型使用短句进行预训练的效果并不理想 , 因为解码器很难从少于14个字母的句子中提取有效信息 。 不过 , 一旦对最大长度为16个单词的句子进行了预训练 , 再利用上下文 , 解码器就可以提高LRS2数据中句子结尾部分的质量 。

电极|无声交流未来可期: 加州伯克利分校用电极和AI检测“无声语音”
文章图片

EMNLP成果丰硕:
中国研究者推出讽刺检测模型
David Gaddy和Dan Klein发表的“无声语音的数字发声”论文在上周线上举行的“自然语言处理的经验方法” (EMNLP) 活动中获得了最佳论文奖 。 Hugging Face团队因开源Transformers库 , 获得了最佳演示奖 (the Best Demo Paper)。
在EMNLP的其他作品中 , Masakhane open source项目的成员使用神经网络机器翻译完成了非洲方言的翻译 , 更新了关于机器翻译的案例研究 。
中国研究人员则介绍了一种讽刺检测模型 (sarcasm detection AI), 该AI在从推特提取的数据集上实现了最先进的性能 。 要判断一个人是否在讽刺 , 通常需要图文配合 , 因此 , 讽刺检测AI采用了结合文本和图像的多模态学习 。
嘘 , 无声语音正被悄然解码 , AI正在悄悄听懂你说的话!
re:
https://venturebeat.com/2020/11/24/uc-berkeley-researchers-detect-silent-speech-with-electrodes-and-ai/
https://www.marktechpost.com/2020/11/26/uc-berkeley-researchers-use-ai-for-digital-voicing-of-silent-speech/
【电极|无声交流未来可期: 加州伯克利分校用电极和AI检测“无声语音”】https://venturebeat.com/2019/12/04/researchers-develop-ai-that-reads-lips-from-video-footage/

    推荐阅读