阿里巴巴和国内外高校研究人员开发新读唇语AI,准确率大升( 二 )

LIBS 和其他类似的解决方案可以帮助那些听力不好的人观看没有字幕的视频 。 据估计 , 全世界有4.66亿人遭受听力丧失 , 约占全世界人口的5% 。 根据世界卫生组织的数据 , 到2050年 , 这个数字可能会超过9亿 。

LIBS 从人类说话者的视频中提取有用的音频信息 , 在多个尺度上 , 包括序列级、上下文级和帧级 。 然后通过识别它们之间的对应关系将这些数据与视频数据对齐(由于不同的采样率和有时出现在开头或结尾的空白 , 视频和音频序列具有不一致的长度) , 并利用滤波技术来精炼特征 。

LIBS语音识别器和唇读器都构建于一种基于注意的序列到序列的体系结构 , 这是一种机器翻译方法 , 它将序列(即音频或视频)输入映射到具有标记和注意值的输出 。

研究人员对他们进行了上述语言和 LRS2语言的训练 , 其中包含了超过45000个来自 BBC 的口语句子 , 还有 CMLR 语言 , 这是中国最大的普通话唇读语料库 , 有超过100000个来自中国网络电视网的自然句子(包括超过3000个汉字和20000个短语) 。

推荐阅读