搜狗发布新研究:语音+唇语让语音识别更准确( 四 )
可见在编解码框架下,由于融合的是不同模态的context vector,而不是对原始特征或者编码器输出的高层特征进行直接融合,解决了不同模态的特征长度不同的问题。
同时,这种模态注意力(Modality Attention)依据不同模态各自的重要程度计算出相应的融合系数,反应了不同模态在当前解码时刻的不同贡献度,可以随着不同解码时刻的不同信噪比等得到不同的模态融合权重,得到更加鲁棒的融合信息。
搜狗从去年6月开始立项,10月就完成并投递了论文,在这个过程中,融合模型的设计是其中最困难的一步,研究人员周盼介绍说,他们在这个问题上花费了大约一半的时间。
实验结果证实了搜狗努力获得的回报。在信噪比为0dB(信号与噪声大小相当)时,搜狗的多模态识别将准确率提高了30%。
推荐阅读
- 使徒|PS5发布一周年,最受玩家喜爱的10款PS5游戏
- 魔兽世界|《轨迹》新作明年发布! 法老控将针对NS平台开发游戏
- 微软|【多图杀猫?】IGN满分大作《极限竞速:地平线 5》今日正式发布
- edg战队|EDG发布战队“庆功宴”,蔬菜论盆装,肉在盘子里堆成了小山
- hle|HLE发布世界赛纪录片,孙大勇教练最后的训话:明年成为更好的选手,无论你身在何方,无论你与谁在一起
- 双城之战|《双城之战》正式开播,口碑炸裂!里面出现了哪些已发布的英雄?
- 网游|《红色警戒2》超大Mod“心灵终结”发布3.3.6版,15年的开发完结
- 商人|DNF:一阵雨发布“玉玺令”,跨五商人闻风而动,结果亏得只剩裤衩
- 一阵雨|DNF:一阵雨发布“悬赏令”!25W收12技攻玉,跨五三大商人破产
- 狙击手|LPL发布决赛预告,JKL宝蓝一起登场?uzi出现两次却没太多EDG镜头