阿里巴巴和国内外高校研究人员开发新读唇语AI,准确率大升( 三 )

研究小组指出 , 由于某些句子太短 , 该模型难以在 LRS2数据集上获得“合理”的结果 (译码器很难从少于14个字符的句子中提取出相关信息) 。 然而 , 一旦对长度最多为16个单词的句子进行预训练 , 解码器就可以利用上下文层面的知识 , 提高 LRS2数据集中句子末尾部分的质量 。

“LIBS 减少了对无关框架的关注 , ”研究人员在一篇描述他们工作内容的论文中写道 , “帧级知识提取进一步提高了视频帧特征的鉴别能力 , 使注意力更加集中 。 ”

推荐阅读