GitHub|Transformer拿下CV顶会大奖，微软亚研获ICCV 2021最佳论文( 二 )_大会|图像|马尔|论文|Swin|Azr

其一，引入 CNN 中常用的层次化构建方式构建分层 Transformer；
其二，引入局部性（locality）思想，对无重合的窗口区域内进行自注意力计算。
首先来看 Swin Transformer 的整体工作流，下图 3a 为 Swin Transformer 的整体架构，图 3b 为两个连续的 Swin Transformer 块。

文章图片

该研究的亮点在于利用移动窗口对分层 Transformer 的表征进行计算。通过将自注意力计算限制在不重叠的局部串口，同时允许跨窗口连接。这种分层结构可以灵活地在不同尺度上建模，并具有图像大小的线性计算复杂度。下图 2 为在 Swin Transformer 架构中利用移动窗口计算自注意力的工作流：

文章图片

模型本身具有的特性使其在一系列视觉任务上都实现了颇具竞争力的性能表现。其中，在 ImageNet-1K 数据集上实现了 86.4% 的图像分类准确率、在 COCO test-dev 数据集上实现了 58.7% 的目标检测 box AP 和 51.1% 的 mask AP 。目前在 COCO minival 和 COCO test-dev 两个数据集上， Swin-L（Swin Transformer 的变体）在目标检测和实例分割任务中均实现了 SOTA 。

文章图片

此外，在 ADE20K val 和 ADE20K 数据集上， Swin-L 也在语义分割任务中实现了 SOTA 。
最佳学生论文奖

获奖论文：Pixel-Perfect Structure-from-Motion with Featuremetric Refinement
作者机构：苏黎世联邦理工学院、微软
论文地址：https://arxiv.org/pdf/2108.08291.pdf
项目地址：github.com/cvg/pixel-perfect-sfm (http://github.com/cvg/pixel-perfect-sfm)

GitHub|Transformer拿下CV顶会大奖，微软亚研获ICCV 2021最佳论文

文章图片

论文摘要：在多个视图中寻找可重复的局部特征是稀疏 3D 重建的基础。经典的图像匹配范式一次性检测每个图像的全部关键点（keypoint），这可能会产生定位不佳的特征，使得最终生成的几何形状出现较大错误。研究者通过直接对齐来自多个视图的低级图像信息来细化运动恢复结构（structure-from-motion ， SFM）的两个关键步骤：首先在任何几何估计之前调整初始关键点位置，然后细化点和相机姿态作为一个后处理。这种改进对大的检测噪声和外观变化具有稳健性，因为它基于神经网络预测的密集特征优化了特征度量误差。这显著提高了相机姿态和场景几何的准确性，并适用于各种关键点检测器、具有挑战性的观看条件和现成的（off-the-shelf）深度特征。该系统可以轻松扩展到大型图像集合，从而实现像素完美的大规模众包定位。该方法现已封装为 SfM 软件 COLMAP 的附加组件。