面对内容理解的准确性和效率问题，facebook是这样利用自我监督技术的( 五 )_雷锋网AI科技评论按

多年来，我们的 CV 系统已经逐渐识别出更多的图像组件，现在可以用一个单一的网络对前景和背景中的物体进行检测。这样可以更好地理解照片的整体背景，更高效的进行图像识别。

我们的结果表明，与只进行实例和语义分割的网络相比，全景 FPN 可以将执行实例和语义分割所需的总体计算量几乎减半。在实践中，这使系统对图像的故事背景有了更好的理解，而这一点在判断它是否违反我们的政策时很重要。但这项工作也会影响到其他应用程序，例如，它可能会潜在地改进我们用来向视力受损者描述图像的自动 alt 文本。

在视频中发现违反政策的行为比在照片中发现违反政策的行为更难。理解视频意味着理解构成给定帧序列的大量图像以及该序列中的行为表示的动机，同时还要处理非视觉的输入，如音频等。

由于这些困难，视频理解还处于起步阶段。无论是在准确性或是效率方面，我们一直在推进视频理解领域最先进的技术的研究，其中一部分工作是专注于我们系统的注意力和在最相关的数据集上进行训练。例如，通过将我们的三维卷积分解为单独的二维和一维卷积（分别与给定视频序列中的空间和时间相关），我们减少了可训练参数的数量。或者，我们可以保持相同数量的参数并提高精度。使用这个框架，我们可以在准确性和效率之间找到平衡。