从GTX到RTX,NVIDIA GPU架构的变迁史(21)

在GV100大核心中 , 每组GPC单元是14个SM单元 , 总数应该是84组SM单元 , 但是现在Tesla V100跟Tesla P100一样都不是完全体 , 前者启用了56组SM单元 , 后者启用了80组SM单元 , 总计80x64=5120个CUDA核心 。

除此之外还有FP64单元 , GV100依然延续了GP100中FP32:FP64=2:1的比例 , 每个SM单元中有32个FP64单元 , 理论上有2688个FP64单元 , 实际启用的是2560个 。

更重要的是 , Volta架构在传统的单双精度计算之外还增加了专用的Tensor Core张量单元 , 用于深度学习、AI运算等 , 在GV100大核心中 , 每组SM单元中还有8个Tensor单元 , 这样整个SM单元中就是FP32:FP64:Tensor=64:32:8的比例存在 , GV100也因此有了Tensor计算能力这个指标 , Tesla P100的Tensor计算能力高达120TFLOPS , NVIDIA宣称它的Tensor性能是Pascal架构的12倍 。

Volta架构如此之特殊 , 以致于NVIDIA并没有推出对应的消费级产品 , 除了TITAN V这一款显卡 , TITAN V从Tesla V100的4096-bit、16GB缩减为3072-bit、12GB的HBM2显存 , 显存频率850MHz , 等效数据频率1700MHz , 带宽高达652.8GB/s , 另外TITAN V的L2缓存减少到4.5MB , 这些使得在深度学习运算性能上稍不如Tesla V100(112TFLOPS) , 显卡供电接口是6+8pin , 显卡 250W , 显示接口为3个DP+1个HDMI 。

推荐阅读