原创<br> 揭秘NVIDIA加速AI推理的密码,1台T4服务器完胜200台CPU服务器( 四 )

基于Turing架构的Tesla T4 GPU

NVIDIA Tesla T4 GPU是全球顶尖的通用加速器,适用于所有AI推理工作负载,不仅有小巧的外形规格和仅70瓦的超低功耗,而且效率比前一代Tesla P4超出两倍以上。

原创<br> 揭秘NVIDIA加速AI推理的密码,1台T4服务器完胜200台CPU服务器

它采用的Turing架构,除了继承Volta架构为CUDA平台引入的增强功能外,还新增独立线程调度、统一内存寻址等许多适合推理的特性。

Turing GPU能提供比历代GPU更出色的推理性能、通用性和高效率,这主要归功于如下几个创新特性:

1、新型流式多元处理器(SM)

新型SM具有Turing Tensor核心,基于Volta GV100架构上经过重大改进的SM而构建。

它能像Volta Tensor核心一样,可提供FP16和FP32混合精度矩阵数学,还新增了INT8和INT4精度模式。

通过实现线程间细粒度同步与合作等功能,Turing SM使得GPU的性能和能效均远高于上一代Pascal GPU,同时简化了编程。

推荐阅读