import|GitHub 7.5k star量，各种视觉Transformer的PyTorch实现合集整理好了 GitHub|Vision|项目|dim

机器之心报道
编辑：杜伟

这个项目登上了今天的GitHub Trending 。

近一两年， Transformer 跨界 CV 任务不再是什么新鲜事了。
自 2020 年 10 月谷歌提出 Vision Transformer (ViT) 以来，各式各样视觉 Transformer 开始在图像合成、点云处理、视觉 - 语言建模等领域大显身手。
之后，在 PyTorch 中实现 Vision Transformer 成为了研究热点。 GitHub 中也出现了很多优秀的项目，今天要介绍的就是其中之一。
该项目名为「vit-pytorch」，它是一个 Vision Transformer 实现，展示了一种在 PyTorch 中仅使用单个 transformer 编码器来实现视觉分类 SOTA 结果的简单方法。
项目当前的 star 量已经达到了 7.5k ，创建者为 Phil Wang ， ta 在 GitHub 上有 147 个资源库。

import|GitHub 7.5k star量，各种视觉Transformer的PyTorch实现合集整理好了

文章图片

项目地址：https://github.com/lucidrains/vit-pytorch
项目作者还提供了一段动图展示：

文章图片

项目介绍
首先来看 Vision Transformer-PyTorch 的安装、使用、参数、蒸馏等步骤。
第一步是安装：
$ pip install vit-pytorch
第二步是使用：
import torch
from vit_pytorch import ViT
v = ViT(
image_size = 256,
patch_size = 32,
num_classes = 1000,
dim = 1024,
depth = 6,
heads = 16,
mlp_dim = 2048,
【import|GitHub 7.5k star量，各种视觉Transformer的PyTorch实现合集整理好了】dropout = 0.1,
emb_dropout = 0.1
img = torch.randn(1, 3, 256, 256)
preds = v(img) # (1, 1000)
第三步是所需参数，包括如下：