搜狗发布新研究:语音+唇语让语音识别更准确( 四 )

搜狗发布新研究:语音+唇语让语音识别更准确

可见在编解码框架下,由于融合的是不同模态的context vector,而不是对原始特征或者编码器输出的高层特征进行直接融合,解决了不同模态的特征长度不同的问题。

同时,这种模态注意力(Modality Attention)依据不同模态各自的重要程度计算出相应的融合系数,反应了不同模态在当前解码时刻的不同贡献度,可以随着不同解码时刻的不同信噪比等得到不同的模态融合权重,得到更加鲁棒的融合信息。

搜狗从去年6月开始立项,10月就完成并投递了论文,在这个过程中,融合模型的设计是其中最困难的一步,研究人员周盼介绍说,他们在这个问题上花费了大约一半的时间。

实验结果证实了搜狗努力获得的回报。在信噪比为0dB(信号与噪声大小相当)时,搜狗的多模态识别将准确率提高了30%。

搜狗发布新研究:语音+唇语让语音识别更准确

推荐阅读