搜狗发布新研究:语音+唇语让语音识别更准确( 五 )
而且模型在不同噪声下,体现出了对语音和视频两种不同模态间的依赖。随着噪声的提升,模型在融合音视觉时,对视觉信息的依赖比例在逐渐提升。
0dB信噪比时,视频的注意力权重接近40%,高于语音清晰环境中35.9%的比例。
现场,搜狗像我们展示了一段Demo,模拟了各种嘈杂环境下的多模态识别。
在模拟乘坐地铁的环境中,可以看到无论是单独的语音识别和唇语识别都无法正确还原原来的语句,但是二者结合起来,就可以正确识别出“北京今天天气怎么样”这句话。
语音交互技术中心首席科学家陈伟还特别指出,视频识别还能根据唇形识别语句在何处结束,也提高了在嘈杂环境下识别的准确率。
这么实用的功能何时才能用上呢?陈伟预计,多模态语音识别将在搜狗的手机输入法中集成,目前搜狗还在和车厂合作通过车内的麦克风、摄像头做出更准确的语音识别。
推荐阅读
- 使徒|PS5发布一周年,最受玩家喜爱的10款PS5游戏
- 魔兽世界|《轨迹》新作明年发布! 法老控将针对NS平台开发游戏
- 微软|【多图杀猫?】IGN满分大作《极限竞速:地平线 5》今日正式发布
- edg战队|EDG发布战队“庆功宴”,蔬菜论盆装,肉在盘子里堆成了小山
- hle|HLE发布世界赛纪录片,孙大勇教练最后的训话:明年成为更好的选手,无论你身在何方,无论你与谁在一起
- 双城之战|《双城之战》正式开播,口碑炸裂!里面出现了哪些已发布的英雄?
- 网游|《红色警戒2》超大Mod“心灵终结”发布3.3.6版,15年的开发完结
- 商人|DNF:一阵雨发布“玉玺令”,跨五商人闻风而动,结果亏得只剩裤衩
- 一阵雨|DNF:一阵雨发布“悬赏令”!25W收12技攻玉,跨五三大商人破产
- 狙击手|LPL发布决赛预告,JKL宝蓝一起登场?uzi出现两次却没太多EDG镜头