搜狗发布新研究：语音+唇语让语音识别更准确( 二 )_未来的人类如何与机器人交流？我们既需

但是纯粹依靠语音的识别方式存在一个缺陷，就是无法在嘈杂环境下仍然保持较高的识别准确率。

通常当语音环境比较安静时，语音识别的准确率会比较高，但当语音环境较为嘈杂时，语音识别的准确率会明显下降。

而视觉的识别方法不受环境声音的影响，人在嘈杂环境下，听不清对方讲话时，会自然的盯紧讲话者的嘴巴，大致明白讲话者的意思。实际上听力障碍人士，正是通过讲话者的唇语进行交流的。

搜狗研究人员想到，如果让AI也能把这两种方法结合起来，就能提高语音识别的准确率。

早在2017年年底，搜狗就已经发布了一个唇语识别的初步成果，是业内首家公开展示唇语识别的公司。但当时的准确率仅有50%~60%，限制了它的实际应用，而且搜狗语音和唇语的技术也一直是分开做的。

经过一年多的发展，唇语识别技术已经有了很大的提升，搜狗团队开始考虑将听觉与视觉两种识别的模式融合起来，即所谓的“多模态”识别，这是搜狗唇语识别继乌镇互联网大会发布后的新突破。

搜狗发布新研究：语音+唇语让语音识别更准确( 二 )