搜狗发布新研究:语音+唇语让语音识别更准确( 三 )
但多模态识别不是简单的把音频和视频的识别叠加起来,在这个过程中,研究人员需要克服两个难题。
1、音频和视频帧率不同
声音和视觉特征是两种本质上差异很大的模态,而且原始帧速率通常不一样,音频为每秒100帧,而视频为每秒24帧。
采用直接拼接的方法会造成信息损失,使得听觉特征在模型训练过程中起到主导作用,造成模型训练难收敛,视觉信息对听觉信息的提升有限。
2、如何选择音频和视频的贡献比例
在安静的情况下应该是语音占主导,在嘈杂环境下一定是视频占主导。如何根据不同的环境选择二者的比例。
搜狗的做法是 “基于注意力的编码器解码器”。在这个框架下,分别使用两个神经网络编码器对输入的不同模态的序列进行逐层特征抽取,得到高层特征表达。然后,由解码器分别对不同模态的特征表达进行注意力计算,得到声音和视觉模态信息中对应于当前解码时刻的上下文向量(context vector)。不同模态的上下文向量经由模态间的注意力自动对不同模态的信息进行融合,并输入到输出层得到解码输出。
推荐阅读
- 使徒|PS5发布一周年,最受玩家喜爱的10款PS5游戏
- 魔兽世界|《轨迹》新作明年发布! 法老控将针对NS平台开发游戏
- 微软|【多图杀猫?】IGN满分大作《极限竞速:地平线 5》今日正式发布
- edg战队|EDG发布战队“庆功宴”,蔬菜论盆装,肉在盘子里堆成了小山
- hle|HLE发布世界赛纪录片,孙大勇教练最后的训话:明年成为更好的选手,无论你身在何方,无论你与谁在一起
- 双城之战|《双城之战》正式开播,口碑炸裂!里面出现了哪些已发布的英雄?
- 网游|《红色警戒2》超大Mod“心灵终结”发布3.3.6版,15年的开发完结
- 商人|DNF:一阵雨发布“玉玺令”,跨五商人闻风而动,结果亏得只剩裤衩
- 一阵雨|DNF:一阵雨发布“悬赏令”!25W收12技攻玉,跨五三大商人破产
- 狙击手|LPL发布决赛预告,JKL宝蓝一起登场?uzi出现两次却没太多EDG镜头