用脑电图也能做语音识别?新研究造福语音障碍者( 五 )

原文:

https://arxiv.org/abs/1906.07317

从深度预训练语言模型,转向端到端语音合成的转移学习

这一研究利用BERT辅助Tacotron-2的训练。Tacotron-2是一种由编码器和基于注意力的解码器组成的最先进的文本语音转换(TTS)方法。本研究的目的是利用深度预训练的学习管理系统所包含的丰富的文本知识来辅助TTS训练。

用脑电图也能做语音识别?新研究造福语音障碍者

图3/6

结合BERT将输入文本序列转换成文本表示,这些文本表示与Tacotron-2编码器提取的文本表示并行,并将两者提供给Tacotron-2的解码器。BERT是一个基于转换器的模型,以无监督的方式训练大量文本。从大量未标记的文本数据中学习到的BERT表示法显示,它包含了非常丰富的输入文本的语义和句法信息,并且有可能被TTS系统利用,从而弥补高质量数据的不足。

从研究结果来看,将BERT加入到Tacotron-2框架中并不能提高合成音频的质量。但该方法在训练过程中收敛速度较快等其他方面的优势也能对tacotron-2模型进行改进。

推荐阅读