一个关于中国对 Nvidia 高性能计算硬件的巨大需求的简短故事揭示了 Nvidia 神秘的 A800 计算 GPU 的性能,它是为中国市场制造的。根据 MyDrivers 的说法,A800 的运行速度是 A100 GPU 的 70%,同时符合严格的美国出口标准,该标准限制了 Nvidia 可以销售的处理能力。
现在已经三年了,Nvidia 的 A100 表现相当出色:它为 HPC 提供 9.7 FP/19.5 FP Tensor TFLOPS,为 AI 工作负载提供高达 624 BF16/FP16 TFLOPS(具有稀疏性)。即使减少了 30% 左右,这些数字看起来仍然令人生畏:6.8 FP/13.7 FP Tensor TFLOPS 以及 437 BF16/FP16(具有稀疏性)。
尽管像 MyDrivers 所说的那样“阉割”(性能上限),但就计算能力而言,Nvidia 的 A800 与成熟的中国 Biren的 BR104 和 BR100 计算 GPU完全不相上下。同时,Nvidia 的计算 GPU 及其 CUDA 架构得到其客户运行的应用程序的广泛支持,而 Biren 的处理器尚未被采用。由于最新规定,甚至 Biren 也无法将其成熟的计算 GPU 运送到中国。
碧仁BR104 | 英伟达A800 | 英伟达A100 | 英伟达H100 | |
构成因素 | FHFL卡 | FHFL 卡 (?) | SXM4 | SXM5 |
晶体管数量 | ? | 542亿 | 542亿 | 800亿 |
节点 | N7 | N7 | N7 | 4N |
力量 | 300W | ? | 400W | 700W |
FP32 TFLOPS | 128 | 13.7 (?) | 19.5 | 60 |
TF32+ 浮点数 | 256 | ? | ? | ? |
TF32 TFLOPS | ? | 109/218*(?) | 156/312* | 500/1000* |
FP16 TFLOPS | ? | 56(?) | 78 | 120 |
FP16 TFLOPS 张量 | ? | 218/437* | 312/624* | 10 |