搜狗发布新研究:语音+唇语让语音识别更准确( 二 )
但是纯粹依靠语音的识别方式存在一个缺陷,就是无法在嘈杂环境下仍然保持较高的识别准确率。
通常当语音环境比较安静时,语音识别的准确率会比较高,但当语音环境较为嘈杂时,语音识别的准确率会明显下降。
而视觉的识别方法不受环境声音的影响,人在嘈杂环境下,听不清对方讲话时,会自然的盯紧讲话者的嘴巴,大致明白讲话者的意思。实际上听力障碍人士,正是通过讲话者的唇语进行交流的。
搜狗研究人员想到,如果让AI也能把这两种方法结合起来,就能提高语音识别的准确率。
早在2017年年底,搜狗就已经发布了一个唇语识别的初步成果,是业内首家公开展示唇语识别的公司。但当时的准确率仅有50%~60%,限制了它的实际应用,而且搜狗语音和唇语的技术也一直是分开做的。
经过一年多的发展,唇语识别技术已经有了很大的提升,搜狗团队开始考虑将听觉与视觉两种识别的模式融合起来,即所谓的“多模态”识别,这是搜狗唇语识别继乌镇互联网大会发布后的新突破。
推荐阅读
- 使徒|PS5发布一周年,最受玩家喜爱的10款PS5游戏
- 魔兽世界|《轨迹》新作明年发布! 法老控将针对NS平台开发游戏
- 微软|【多图杀猫?】IGN满分大作《极限竞速:地平线 5》今日正式发布
- edg战队|EDG发布战队“庆功宴”,蔬菜论盆装,肉在盘子里堆成了小山
- hle|HLE发布世界赛纪录片,孙大勇教练最后的训话:明年成为更好的选手,无论你身在何方,无论你与谁在一起
- 双城之战|《双城之战》正式开播,口碑炸裂!里面出现了哪些已发布的英雄?
- 网游|《红色警戒2》超大Mod“心灵终结”发布3.3.6版,15年的开发完结
- 商人|DNF:一阵雨发布“玉玺令”,跨五商人闻风而动,结果亏得只剩裤衩
- 一阵雨|DNF:一阵雨发布“悬赏令”!25W收12技攻玉,跨五三大商人破产
- 狙击手|LPL发布决赛预告,JKL宝蓝一起登场?uzi出现两次却没太多EDG镜头