NVIDIA GPU卡汇总
NVIDIA 9代架构
1999 年,英伟达发明了 GPU(graphics processing unit),英伟达 GPU 从 Fermi 到 Blackwell 共 9 代架构,时间跨度从 2010 年至 2024 年,具体包括费米(Feimi)、开普勒(Kepler)、麦克斯韦(Maxwell)、帕斯卡(Pashcal)、伏特(Volt)、图灵(Turing)、安培(Ampere)和赫柏(Hopper)和布莱克韦尔(Blackwell)架构。经过 15 年的发展,CUDA 已成为英伟达的技术“护城河”,Tensor Core5.0,NVLink5.0,NVswitch4.0,Transformer Engine2.0 等技术迭代更新,正如英伟达公司官方宣传语所言:人工智能计算领域的领导者,推动了 AI、HPC、游戏、创意设计、自动驾驶汽车和机器人开发领域的进步。
架构名称 | 中文名字 | 发布时间 | 核心参数 | 特点&优势 | 纳米制程 | 代表型号 |
Fermi | 费米 | 2010 | 16 个 SM,每个 SM 包含 32 个 CUDA Cores,一共 512 CUDA Cores | 首个完整 GPU 计算架构,支持与共享存储结合的 Cache 层次 GPU 架构,支持 ECC GPU 架构 | 40/28nm, 30 亿晶体管 | Quadro 7000 |
Kepler | 开普勒 | 2012 | 15 个 SMX,每个 SMX 包括 192 个 FP32+64 个 FP64 CUDA Cores | 游戏性能大幅提升,首次支持 GPU Direct 技术 | 28nm, 71 亿晶体管 | K80, K40M |
Maxwell | 麦克斯韦 | 2014 | 16 个 SM,每个 SM 包括 4 个处理块,每个处理块包括 32 个 CUDA Cores+8 个 LD/ST Unit + 8 SFU | 每组 SM 单元从 192 个减少到每组 128 个,每个 SMM 单元拥有更多逻辑控制电路 | 28nm, 80 亿晶体管 | M5000, M4000GTX 9XX 系列 |
Pascal | 帕斯卡 | 2016 | GP100 有 60 个 SM,每个 SM 包括 64 个 CUDA Cores,32 个 DP Cores | NVLink 第一代,双向互联带宽 160GB/s,P100 拥有 56 个 SM HBM | 16nm, 153 亿晶体管 | P100, P6000, TTX1080 |
Volta | 伏特 | 2017 | 80 个 SM,每个 SM 包括 32 个 FP64+64 Int32+64 FP32+8 个 Tensor Cores | NVLink2.0,Tensor Cores 第一代,支持 AI 运算,NVSwitch1.0 | 12nm, 211 亿晶体管 | V100, TiTan V |
Turing | 图灵 | 2018 | 102 核心 92 个 SM,SM 重新设计,每个 SM 包含 64 个 Int32+64 个 FP32+8 个 Tensor Cores | Tensor Core2.0,RT Core 第一代 | 12nm, 186 亿晶体管 | T4,2080TI, RTX 5000 |
Ampere | 安培 | 2020 | 108 个 SM,每个 SM 包含 64 个 FP32+64 个 INT32+32 个 FP64+4 个 Tensor Cores | Tensor Core3.0,RT Core2.0,NVLink3.0,结构稀疏性矩阵 MIG1.0 | 7nm, 283 亿晶体管 | A100, A30 系列 |
Hopper | 赫柏 | 2022 | 132 个 SM,每个 SM 包含 128 个 FP32+64 个 INT32+64 个 FP64+4 个 Tensor Cores | Tensor Core4.0,NVLink4.0,结构稀疏性矩阵 MIG2.0 | 4nm, 800 亿晶体管 | H100 |
Blackwell | 布莱克韦尔 | 2024 | \- | Tensor Core5.0,NVLink5.0, 第二代 Transformer 引擎,支持 RAS | 4NP, 2080 亿晶体管 | B200 |
Hopper 架构是第一个真正的异构加速平台,适用于高性能计算(HPC)和 AI 工作负载。英伟达 Grace CPU 和英伟达 Hopper GPU 实现英伟达 NVLink-C2C 互连,高达 900 GB/s 的总带宽的同时支持 CPU 内存寻址为 GPU 内存。NVLink4.0 连接多达 256 个英伟达 Grace Hopper 超级芯片,最高可达 150 TB 的 GPU 可寻址内存。
H100 一共有 8 组 GPC、66 组 TPC、132 组 SM,总计有 16896 个 CUDA 核心、528 个 Tensor 核心、50MB 二级缓存。显存为新一代 HBM3,容量 80 GB,位宽 5120-bit,带宽高达 3 TB/s。
2024 年 3 月,英伟达发布 Blackwell 架构,专门用于处理数据中心规模的生成式 AI 工作流,能效是 Hopper 的 25 倍,新一代架构在以下方面做了创新:
-
新型 AI 超级芯片:Blackwell 架构 GPU 具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片,通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。
-
第二代 Transformer 引擎:将定制的 Blackwell Tensor Core 技术与英伟达 TensorRT-LLM 和 NeMo 框架创新相结合,加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。
-
第五代 NVLink:为了加速万亿参数和混合专家模型的性能,新一代 NVLink 为每个 GPU 提供 1.8TB/s 双向带宽,支持多达 576 个 GPU 间的无缝高速通信,适用于复杂大语言模型。
-
RAS 引擎:Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能恢复能力,以识别早期可能发生的潜在故障,从而更大限度地减少停机时间。
-
安全 AI:内置英伟达机密计算技术,可通过基于硬件的强大安全性保护敏感数据和 AI 模型,使其免遭未经授权的访问。
-
解压缩引擎:拥有解压缩引擎以及通过 900GB/s 双向带宽的高速链路访问英伟达 Grace CPU 中大量内存的能力,可加速整个数据库查询工作流,从而在数据分析和数据科学方面实现更高性能。
英伟达 GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的片间互联,将两个英伟达 B200 Tensor Core GPU 与英伟达 Grace CPU 相连。在 90 天内训练一个 1.8 万亿参数的 MoE 架构 GPT 模型,需要 8000 个 Hopper 架构 GPU,15 兆瓦功率,Blackwell 架构只需要 2000 个 GPU,以及 ¼ 的能源消耗。8 年时间,从 Pascal 架构到 Blackwell 架构,英伟达将 AI 计算性能提升了 1000 倍!
Data Center和消费级GPU卡
根据时间区线,以下是Data Center和消费级GPU卡出现的时间点和技术。
Release Year | GPU Model | Architecture | Memory (GB) | Key Features |
---|---|---|---|---|
2024 | Blackwell (B100) | Blackwell | 192 | HBM3e memory, advanced NVSwitch, AI-optimized |
2022 | Hopper (H100) | Hopper | Up to 80 | HBM2e memory, high AI training capacity |
2022 | RTX 40 Series (e.g., 4090) | Ada Lovelace | 24 | DLSS 3, 3rd-gen RT cores, top gaming GPU |
2020 | RTX 30 Series (e.g., 3090) | Ampere | Up to 24 | 2nd-gen RT cores, DLSS 2, Tensor cores |
2018 | Tesla T4 | Turing | 16 | Optimized for AI inference, low power usage |
2018 | RTX 20 Series (e.g., 2080) | Turing | Up to 11 | 1st-gen RT cores, DLSS introduction |
2016 | GTX 10 Series (e.g., 1080) | Pascal | Up to 11 | Major leap in power efficiency |
2014 | GTX 900 Series (e.g., 980) | Maxwell | Up to 4 | Efficiency improvement, DirectX 12 support |
2012 | GTX 600 Series (e.g., 680) | Kepler | Up to 4 | Dynamic parallelism, high power efficiency |
Here’s a table listing some of NVIDIA’s major data center/server GPUs released in recent years, organized by release date from the most recent to the oldest. This includes their key architectural features and target performance use cases, particularly for AI, high-performance computing, and data analytics:
GPU Model | Release Year | Architecture | CUDA Cores | Memory | Use Case |
---|---|---|---|---|---|
H100 | 2022 | Hopper | 14,592 | 80GB HBM3 | AI model training, high-performance computing |
A100 | 2020 | Ampere | 6,912 | 40-80GB HBM2e | AI/ML training and inference |
V100 | 2017 | Volta | 5,120 | 16-32GB HBM2 | Deep learning and scientific computing |
T4 | 2018 | Turing | 2,560 | 16GB GDDR6 | Inferencing, data analytics, virtual desktops |
P100 | 2016 | Pascal | 3,584 | 16GB HBM2 | HPC, machine learning |
K80 | 2014 | Kepler | 4,992 | 24GB GDDR5 | Scientific simulations, data analytics |
而24年发布的Blackwell基于架构的下一代的 B100/B200 卡参数如下
GPU Model | Release Date | Architecture | Peak FP4 (Dense) | Peak FP4 (Sparse) | Peak FP16/BF16 (Dense) | Peak FP64 (Dense) | Memory | Memory Bandwidth | NVLink Bandwidth | TDP |
---|---|---|---|---|---|---|---|---|---|---|
B200 | 2024 | Blackwell | 9 PFLOPS | 18 PFLOPS | 2.25 PFLOPS | 40 TFLOPS | 192 GB | 8 TB/s | 1.8 TB/s | 1000W |
B100 | 2024 | Blackwell | 7 PFLOPS | 14 PFLOPS | 1.8 PFLOPS | 30 TFLOPS | 192 GB | 8 TB/s | 1.8 TB/s | 700W |
Summary of Differences: - The B200 outperforms the B100 in compute power, achieving up to 9 PFLOPS in dense FP4 and 18 PFLOPS in sparse FP4, compared to the B100's 7 and 14 PFLOPS, respectively. - For precision tasks, B200’s FP16/BF16 operations reach 2.25 PFLOPS, while the B100 peaks at 1.8 PFLOPS. - B200 also has a higher TDP (1000W vs. 700W for the B100), indicating its enhanced capability for demanding computational loads and improved scalability in server environments.
参考页面:
- NVIDIA Data Center GPU Resource Center
- NVIDIA Blackwell Architecture
- NVIDIA Hopper Architecture
- 英伟达数据中心GPU所有型号及参数汇总
- GPU 英伟达GPU架构回顾
捐赠本站(Donate)
如您感觉文章有用,可扫码捐赠本站!(If the article useful, you can scan the QR code to donate))