面对内容理解的准确性和效率问题,facebook是这样利用自我监督技术的( 七 )

这项技术直接建立在我们去年在 F8 上宣布的工作的基础上,该工作的训练网络使用数十亿张带有标签的公共图像,并且能够在图像识别任务中击败最先进的技术。在我们的新方法中,带标签的视频扮演着弱监督数据的角色,这意味着训练示例的标签已经被人们应用,但没有全监督的精度。

与专门用于训练人工智能模型的标签相比,结果的注释噪音大且不精确。但是,这种方法提供的标记示例的数量表明,我们不仅可以通过在弱监督的训练数据上进行训练,也可以在前所未有的巨大数量的数据集上进行训练来显著提高视频理解能力。

在这种情况下,我们训练的最大的数据集包括超过 6500 万个带有标签的公共 Instagram 视频。而相比之下,当前的动作分类数据集只包含几十万个视频。使用这些视频带来的技术挑战和我们识别数以十亿记的图像识别工作类似,例如必须跨硬件平台部署训练,而且还会遇到新的障碍,包括处理的标签通常只适用于视频的一小部分这一事实。例如,一个带有「婚礼和舞蹈」标签的视频可能只会在一段更长的视频中展示一对新婚夫妇跳舞的几秒钟。

尽管存在这种时间噪声问题,但我们发现内容的多样性和示例的绝对规模抵消了标签中的噪声。通过使用显著性抽样器,我们的视频识别模型在三个主要的视频分类基准上达到了世界领先水平的精度。这包括将视频分为 400 种不同的人类行为类别中的一种时,在 Kinetics 数据集上的精确度达到了 82.8%。这比先前最高 77.7% 的准确度提高了 5.1%,相对来说,误差减少了 25% 以上。我们已经将这种方法应用到生产系统中,将欺凌行为识别率提高了近 85%。

推荐阅读