跳转至

NVIDIA GPU卡汇总

NVIDIA 9代架构

1999 年,英伟达发明了 GPU(graphics processing unit),英伟达 GPU 从 Fermi 到 Blackwell 共 9 代架构,时间跨度从 2010 年至 2024 年,具体包括费米(Feimi)、开普勒(Kepler)、麦克斯韦(Maxwell)、帕斯卡(Pashcal)、伏特(Volt)、图灵(Turing)、安培(Ampere)和赫柏(Hopper)和布莱克韦尔(Blackwell)架构。经过 15 年的发展,CUDA 已成为英伟达的技术“护城河”,Tensor Core5.0,NVLink5.0,NVswitch4.0,Transformer Engine2.0 等技术迭代更新,正如英伟达公司官方宣传语所言:人工智能计算领域的领导者,推动了 AI、HPC、游戏、创意设计、自动驾驶汽车和机器人开发领域的进步。 ​

架构名称 中文名字 发布时间 核心参数 特点&优势 纳米制程 代表型号
Fermi 费米 2010 16 个 SM,每个 SM 包含 32 个 CUDA Cores,一共 512 CUDA Cores 首个完整 GPU 计算架构,支持与共享存储结合的 Cache 层次 GPU 架构,支持 ECC GPU 架构 40/28nm, 30 亿晶体管 Quadro 7000
Kepler 开普勒 2012 15 个 SMX,每个 SMX 包括 192 个 FP32+64 个 FP64 CUDA Cores 游戏性能大幅提升,首次支持 GPU Direct 技术 28nm, 71 亿晶体管 K80, K40M
Maxwell 麦克斯韦 2014 16 个 SM,每个 SM 包括 4 个处理块,每个处理块包括 32 个 CUDA Cores+8 个 LD/ST Unit + 8 SFU 每组 SM 单元从 192 个减少到每组 128 个,每个 SMM 单元拥有更多逻辑控制电路 28nm, 80 亿晶体管 M5000, M4000GTX 9XX 系列
Pascal 帕斯卡 2016 GP100 有 60 个 SM,每个 SM 包括 64 个 CUDA Cores,32 个 DP Cores NVLink 第一代,双向互联带宽 160GB/s,P100 拥有 56 个 SM HBM 16nm, 153 亿晶体管 P100, P6000, TTX1080
Volta 伏特 2017 80 个 SM,每个 SM 包括 32 个 FP64+64 Int32+64 FP32+8 个 Tensor Cores NVLink2.0,Tensor Cores 第一代,支持 AI 运算,NVSwitch1.0 12nm, 211 亿晶体管 V100, TiTan V
Turing 图灵 2018 102 核心 92 个 SM,SM 重新设计,每个 SM 包含 64 个 Int32+64 个 FP32+8 个 Tensor Cores Tensor Core2.0,RT Core 第一代 12nm, 186 亿晶体管 T4,2080TI, RTX 5000
Ampere 安培 2020 108 个 SM,每个 SM 包含 64 个 FP32+64 个 INT32+32 个 FP64+4 个 Tensor Cores Tensor Core3.0,RT Core2.0,NVLink3.0,结构稀疏性矩阵 MIG1.0 7nm, 283 亿晶体管 A100, A30 系列
Hopper 赫柏 2022 132 个 SM,每个 SM 包含 128 个 FP32+64 个 INT32+64 个 FP64+4 个 Tensor Cores Tensor Core4.0,NVLink4.0,结构稀疏性矩阵 MIG2.0 4nm, 800 亿晶体管 H100
Blackwell 布莱克韦尔 2024 \- Tensor Core5.0,NVLink5.0, 第二代 Transformer 引擎,支持 RAS 4NP, 2080 亿晶体管 B200

Hopper 架构是第一个真正的异构加速平台,适用于高性能计算(HPC)和 AI 工作负载。英伟达 Grace CPU 和英伟达 Hopper GPU 实现英伟达 NVLink-C2C 互连,高达 900 GB/s 的总带宽的同时支持 CPU 内存寻址为 GPU 内存。NVLink4.0 连接多达 256 个英伟达 Grace Hopper 超级芯片,最高可达 150 TB 的 GPU 可寻址内存。

H100 一共有 8 组 GPC、66 组 TPC、132 组 SM,总计有 16896 个 CUDA 核心、528 个 Tensor 核心、50MB 二级缓存。显存为新一代 HBM3,容量 80 GB,位宽 5120-bit,带宽高达 3 TB/s。

2024 年 3 月,英伟达发布 Blackwell 架构,专门用于处理数据中心规模的生成式 AI 工作流,能效是 Hopper 的 25 倍,新一代架构在以下方面做了创新:

  • 新型 AI 超级芯片:Blackwell 架构 GPU 具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片,通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。

  • 第二代 Transformer 引擎:将定制的 Blackwell Tensor Core 技术与英伟达 TensorRT-LLM 和 NeMo 框架创新相结合,加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。

  • 第五代 NVLink:为了加速万亿参数和混合专家模型的性能,新一代 NVLink 为每个 GPU 提供 1.8TB/s 双向带宽,支持多达 576 个 GPU 间的无缝高速通信,适用于复杂大语言模型。

  • RAS 引擎:Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能恢复能力,以识别早期可能发生的潜在故障,从而更大限度地减少停机时间。

  • 安全 AI:内置英伟达机密计算技术,可通过基于硬件的强大安全性保护敏感数据和 AI 模型,使其免遭未经授权的访问。

  • 解压缩引擎:拥有解压缩引擎以及通过 900GB/s 双向带宽的高速链路访问英伟达 Grace CPU 中大量内存的能力,可加速整个数据库查询工作流,从而在数据分析和数据科学方面实现更高性能。

英伟达 GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的片间互联,将两个英伟达 B200 Tensor Core GPU 与英伟达 Grace CPU 相连。在 90 天内训练一个 1.8 万亿参数的 MoE 架构 GPT 模型,需要 8000 个 Hopper 架构 GPU,15 兆瓦功率,Blackwell 架构只需要 2000 个 GPU,以及 ¼ 的能源消耗。8 年时间,从 Pascal 架构到 Blackwell 架构,英伟达将 AI 计算性能提升了 1000 倍

nvidia-compute-growth

Data Center和消费级GPU卡

根据时间区线,以下是Data Center和消费级GPU卡出现的时间点和技术。

Release Year GPU Model Architecture Memory (GB) Key Features
2024 Blackwell (B100) Blackwell 192 HBM3e memory, advanced NVSwitch, AI-optimized
2022 Hopper (H100) Hopper Up to 80 HBM2e memory, high AI training capacity
2022 RTX 40 Series (e.g., 4090) Ada Lovelace 24 DLSS 3, 3rd-gen RT cores, top gaming GPU
2020 RTX 30 Series (e.g., 3090) Ampere Up to 24 2nd-gen RT cores, DLSS 2, Tensor cores
2018 Tesla T4 Turing 16 Optimized for AI inference, low power usage
2018 RTX 20 Series (e.g., 2080) Turing Up to 11 1st-gen RT cores, DLSS introduction
2016 GTX 10 Series (e.g., 1080) Pascal Up to 11 Major leap in power efficiency
2014 GTX 900 Series (e.g., 980) Maxwell Up to 4 Efficiency improvement, DirectX 12 support
2012 GTX 600 Series (e.g., 680) Kepler Up to 4 Dynamic parallelism, high power efficiency

Here’s a table listing some of NVIDIA’s major data center/server GPUs released in recent years, organized by release date from the most recent to the oldest. This includes their key architectural features and target performance use cases, particularly for AI, high-performance computing, and data analytics:

GPU Model Release Year Architecture CUDA Cores Memory Use Case
H100 2022 Hopper 14,592 80GB HBM3 AI model training, high-performance computing
A100 2020 Ampere 6,912 40-80GB HBM2e AI/ML training and inference
V100 2017 Volta 5,120 16-32GB HBM2 Deep learning and scientific computing
T4 2018 Turing 2,560 16GB GDDR6 Inferencing, data analytics, virtual desktops
P100 2016 Pascal 3,584 16GB HBM2 HPC, machine learning
K80 2014 Kepler 4,992 24GB GDDR5 Scientific simulations, data analytics

而24年发布的Blackwell基于架构的下一代的 B100/B200 卡参数如下

GPU Model Release Date Architecture Peak FP4 (Dense) Peak FP4 (Sparse) Peak FP16/BF16 (Dense) Peak FP64 (Dense) Memory Memory Bandwidth NVLink Bandwidth TDP
B200 2024 Blackwell 9 PFLOPS 18 PFLOPS 2.25 PFLOPS 40 TFLOPS 192 GB 8 TB/s 1.8 TB/s 1000W
B100 2024 Blackwell 7 PFLOPS 14 PFLOPS 1.8 PFLOPS 30 TFLOPS 192 GB 8 TB/s 1.8 TB/s 700W

Summary of Differences: - The B200 outperforms the B100 in compute power, achieving up to 9 PFLOPS in dense FP4 and 18 PFLOPS in sparse FP4, compared to the B100's 7 and 14 PFLOPS, respectively. - For precision tasks, B200’s FP16/BF16 operations reach 2.25 PFLOPS, while the B100 peaks at 1.8 PFLOPS. - B200 also has a higher TDP (1000W vs. 700W for the B100), indicating its enhanced capability for demanding computational loads and improved scalability in server environments.

参考页面:

捐赠本站(Donate)

weixin_pay
如您感觉文章有用,可扫码捐赠本站!(If the article useful, you can scan the QR code to donate))