训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo( 四 )



训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片

此外 , 该研究还与不使用感知相似性的变体进行了比较 。 如表 4 所示 ,我们可以发现感知码字在线性评估和重构图像分类方面获得了更高的准确率 。 这表明感知 codebook 具有更多的语义意义 , 有利于图像重构过程 。

训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片

下图为使用 BEiT 和 PeCo 在 ImageNet-1k 上重构任务的示例 。 对于每个样本 , 第一张是原始图像 , 第二张是对应的掩码图像 , 第三张是 BEiT 重构图像 , 最后一张是从感知 codebook(PeCo)重构的图像 。 PeCo 在感知 codebook 的帮助下 , 能够对掩码区域进行更语义化的预测 。

训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片

推荐阅读