训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo( 二 )


学习用于可视化内容的离散 Codebook
该研究利用 VQ-VAE 将连续图像内容转换为离散 token 形式 。 图像表示为 x∈ R^H×W×3 , VQ-VAE 用离散视觉 Codebook 来表示图像 , 即

训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片

其中 , VQ-VAE 包含三个主要部分:编码器、量化器和解码器 。 编码器负责将输入图像映射到中间潜在向量 z = Enc(x);量化器根据最近邻分配原则负责将位置 (i, j) 处的向量量化为来自 Codebook 对应的码字(codewords):

训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片

然后得到如下公式:

训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片

其中 q 是量化编码器 , 可以将向量映射到 codebook 索引 , r 是量化解码器 , 可以从索引重构向量 。 基于量化的码字为 z_q , 解码器旨在重构输入图像 x 。 VQ-VAE 的训练目标定义为:

训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片

学习用于视觉内容的 PeCo
该研究提出 , 在不包含像素损失的情况下 , 对模型强制执行原始图像和重构图像之间的感知相似性 。 感知相似性不是基于像素之间的差异得到的 , 而是基于从预训练深度神经网络中提取的高级图像特征表示之间的差异而得到 。 该研究希望这种基于 feature-wise 的损失能够更好地捕捉感知差异并提供对低级变化的不变性 。 下图从图像重构的角度展示了模型使用不同损失的比较 , 结果表明图像在较低的 pixel-wise 损失下可能不会出现感知相似:

训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片

图 1. 不同损失下的图像重构比较 。 每个示例包含三个图像 , 输入(左)、使用 pixel-wise 损失重构图像(中)、使用 pixel-wise 损失和 feature-wise 损失重构图像(右) 。 与中间图像相比 , 右侧图像在感知上与输入更相似 。
在形式上 , 假设输入图像 x 和重构图像

训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片

的感知度量可以表示为:

训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片

其中 S 表示提取特征的层数 , 总的目标函数为:

训练|视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片

BERT objective 执行掩码图像建模
该研究采用 BERT objective 在离散视觉 token 上执行掩码图像建模任务 , 如 BEiT 。 对于给定的图像 x , 输入 token 为不重叠的图像 patch , 输出 token 是通过学习方程 (5) 获得的离散感知视觉单词 。 设输入为 {x_1 , x_2 , · · · , x_N } , 并且真值输出为

推荐阅读