AMD|显存延迟测试：AMD RNDA 2架构竟比英伟达Ampere GPU更优秀_显存延迟测试：AMD|RNDA|2架构竟

经过多年发展，GPU 硬件也迎来了多级缓存结构。通过精心的设计，其能够有效缓和各个 PC 计算组件之间的性能掣肘。但不同 GPU 制造商之间的架构设计思路，仍有着较大的差别。以目前占独显市场最多的英伟达和 AMD 为例，两家公司旗下的竞品 GPU 就具有不同大小的寄存器和 L1 / L2 缓存。
访问购买页面:
【AMD|显存延迟测试：AMD RNDA 2架构竟比英伟达Ampere GPU更优秀】AMD旗舰店

文章图片

英伟达 A100 GPU 开发板
比如英伟达 A100 GPU 的 L2 缓存容量为 40MB，直接增加到了上一代 V100 的七倍。显然，这考虑到了许多新应用程序需要更大的缓存，且为后续不断增长的使用需求而预留了一定的空间。
有趣的是，Chips and Cheese 于近日发布了一份有趣的报告，揭示了 AMD 最新一代的 RNDA 2、和英伟达 Ampere GPU 之间的显存延迟表现。

文章图片

显存延迟比较（越低越好）
通过在 OpenCL 中使用简单的指针追逐测试，其得到了一份有趣的结果。其中采用 RDNA 2 架构的 AMD Radeon RX 6800 XT 显卡，其 Infinity Cache 高速缓存的表现很是亮眼。
与采用 Ampere 架构的英伟达 GeForce RTX 3090 旗舰显卡相比，即便显存（VRAM）方面的延迟几乎一致，但 IF 设计还是大幅降低了 Radeon RX 6000 显卡的访问延迟。

文章图片

AMD Infinity Cache 资料图
TechPowerUp 指出，英伟达 Ampere GPU 使用了 L1 + L2 两级缓存系统，测试表明这套解决方案的效用相当缓慢。在从 Ampere SM（L1 缓存）向 L2 传输的时候，数据延迟竟高达 100ns。
另一方面，尽管 AMD RDNA 2 GPU 具有 L0 / L1 / L2 三级缓存系统（Infinity Cache 理论上也可以视作 L3 缓存），但 A 卡的显存延迟仍低得多。即便从 L1 到 L2，也只需 66 ns。
感兴趣的朋友，可移步至 Chips and Cheese 查看《GPU 显存延迟测试》全文。