搜狗发布新研究：语音+唇语让语音识别更准确( 四 )

2019-05-17

可见在编解码框架下，由于融合的是不同模态的context vector，而不是对原始特征或者编码器输出的高层特征进行直接融合，解决了不同模态的特征长度不同的问题。

同时，这种模态注意力（Modality Attention）依据不同模态各自的重要程度计算出相应的融合系数，反应了不同模态在当前解码时刻的不同贡献度，可以随着不同解码时刻的不同信噪比等得到不同的模态融合权重，得到更加鲁棒的融合信息。

搜狗从去年6月开始立项，10月就完成并投递了论文，在这个过程中，融合模型的设计是其中最困难的一步，研究人员周盼介绍说，他们在这个问题上花费了大约一半的时间。

实验结果证实了搜狗努力获得的回报。在信噪比为0dB（信号与噪声大小相当）时，搜狗的多模态识别将准确率提高了30%。

推荐阅读

上一篇：刘作虎谈一加7 Pro：90Hz屏幕会影响滑动操作的流畅体验，用了就回不去

下一篇：瑞信：德昌电机目标价降至19.8港元予跑赢大市评级