搜狗发布新研究:语音+唇语让语音识别更准确( 三 )

但多模态识别不是简单的把音频和视频的识别叠加起来,在这个过程中,研究人员需要克服两个难题。

1、音频和视频帧率不同

声音和视觉特征是两种本质上差异很大的模态,而且原始帧速率通常不一样,音频为每秒100帧,而视频为每秒24帧。

采用直接拼接的方法会造成信息损失,使得听觉特征在模型训练过程中起到主导作用,造成模型训练难收敛,视觉信息对听觉信息的提升有限。

2、如何选择音频和视频的贡献比例

在安静的情况下应该是语音占主导,在嘈杂环境下一定是视频占主导。如何根据不同的环境选择二者的比例。

搜狗的做法是 “基于注意力的编码器解码器”。在这个框架下,分别使用两个神经网络编码器对输入的不同模态的序列进行逐层特征抽取,得到高层特征表达。然后,由解码器分别对不同模态的特征表达进行注意力计算,得到声音和视觉模态信息中对应于当前解码时刻的上下文向量(context vector)。不同模态的上下文向量经由模态间的注意力自动对不同模态的信息进行融合,并输入到输出层得到解码输出。

推荐阅读