搜狗发布新研究:语音+唇语让语音识别更准确( 五 )

而且模型在不同噪声下,体现出了对语音和视频两种不同模态间的依赖。随着噪声的提升,模型在融合音视觉时,对视觉信息的依赖比例在逐渐提升。

0dB信噪比时,视频的注意力权重接近40%,高于语音清晰环境中35.9%的比例。

搜狗发布新研究:语音+唇语让语音识别更准确

现场,搜狗像我们展示了一段Demo,模拟了各种嘈杂环境下的多模态识别。

搜狗发布新研究:语音+唇语让语音识别更准确

在模拟乘坐地铁的环境中,可以看到无论是单独的语音识别和唇语识别都无法正确还原原来的语句,但是二者结合起来,就可以正确识别出“北京今天天气怎么样”这句话。

语音交互技术中心首席科学家陈伟还特别指出,视频识别还能根据唇形识别语句在何处结束,也提高了在嘈杂环境下识别的准确率。

这么实用的功能何时才能用上呢?陈伟预计,多模态语音识别将在搜狗的手机输入法中集成,目前搜狗还在和车厂合作通过车内的麦克风、摄像头做出更准确的语音识别。

推荐阅读