NVIDIA GPU卡汇总

NVIDIA 9代架构

1999 年，英伟达发明了 GPU（graphics processing unit），英伟达 GPU 从 Fermi 到 Blackwell 共 9 代架构，时间跨度从 2010 年至 2024 年，具体包括费米（Feimi）、开普勒（Kepler）、麦克斯韦（Maxwell）、帕斯卡（Pashcal）、伏特（Volt）、图灵（Turing）、安培（Ampere）和赫柏（Hopper）和布莱克韦尔（Blackwell）架构。经过 15 年的发展，CUDA 已成为英伟达的技术“护城河”，Tensor Core5.0，NVLink5.0，NVswitch4.0，Transformer Engine2.0 等技术迭代更新，正如英伟达公司官方宣传语所言：人工智能计算领域的领导者，推动了 AI、HPC、游戏、创意设计、自动驾驶汽车和机器人开发领域的进步。

架构名称	中文名字	发布时间	核心参数	特点&优势	纳米制程	代表型号
Fermi	费米	2010	16 个 SM，每个 SM 包含 32 个 CUDA Cores，一共 512 CUDA Cores	首个完整 GPU 计算架构，支持与共享存储结合的 Cache 层次 GPU 架构，支持 ECC GPU 架构	40/28nm, 30 亿晶体管	Quadro 7000
Kepler	开普勒	2012	15 个 SMX，每个 SMX 包括 192 个 FP32+64 个 FP64 CUDA Cores	游戏性能大幅提升，首次支持 GPU Direct 技术	28nm, 71 亿晶体管	K80, K40M
Maxwell	麦克斯韦	2014	16 个 SM，每个 SM 包括 4 个处理块，每个处理块包括 32 个 CUDA Cores+8 个 LD/ST Unit + 8 SFU	每组 SM 单元从 192 个减少到每组 128 个，每个 SMM 单元拥有更多逻辑控制电路	28nm, 80 亿晶体管	M5000, M4000GTX 9XX 系列
Pascal	帕斯卡	2016	GP100 有 60 个 SM，每个 SM 包括 64 个 CUDA Cores，32 个 DP Cores	NVLink 第一代，双向互联带宽 160GB/s，P100 拥有 56 个 SM HBM	16nm, 153 亿晶体管	P100, P6000, TTX1080
Volta	伏特	2017	80 个 SM，每个 SM 包括 32 个 FP64+64 Int32+64 FP32+8 个 Tensor Cores	NVLink2.0，Tensor Cores 第一代，支持 AI 运算，NVSwitch1.0	12nm, 211 亿晶体管	V100, TiTan V
Turing	图灵	2018	102 核心 92 个 SM，SM 重新设计，每个 SM 包含 64 个 Int32+64 个 FP32+8 个 Tensor Cores	Tensor Core2.0，RT Core 第一代	12nm, 186 亿晶体管	T4，2080TI, RTX 5000
Ampere	安培	2020	108 个 SM，每个 SM 包含 64 个 FP32+64 个 INT32+32 个 FP64+4 个 Tensor Cores	Tensor Core3.0，RT Core2.0，NVLink3.0，结构稀疏性矩阵 MIG1.0	7nm, 283 亿晶体管	A100, A30 系列
Hopper	赫柏	2022	132 个 SM，每个 SM 包含 128 个 FP32+64 个 INT32+64 个 FP64+4 个 Tensor Cores	Tensor Core4.0，NVLink4.0，结构稀疏性矩阵 MIG2.0	4nm, 800 亿晶体管	H100
Blackwell	布莱克韦尔	2024	\-	Tensor Core5.0，NVLink5.0, 第二代 Transformer 引擎，支持 RAS	4NP, 2080 亿晶体管	B200

Hopper 架构是第一个真正的异构加速平台，适用于高性能计算（HPC）和 AI 工作负载。英伟达 Grace CPU 和英伟达 Hopper GPU 实现英伟达 NVLink-C2C 互连，高达 900 GB/s 的总带宽的同时支持 CPU 内存寻址为 GPU 内存。NVLink4.0 连接多达 256 个英伟达 Grace Hopper 超级芯片，最高可达 150 TB 的 GPU 可寻址内存。

H100 一共有 8 组 GPC、66 组 TPC、132 组 SM，总计有 16896 个 CUDA 核心、528 个 Tensor 核心、50MB 二级缓存。显存为新一代 HBM3，容量 80 GB，位宽 5120-bit，带宽高达 3 TB/s。

2024 年 3 月，英伟达发布 Blackwell 架构，专门用于处理数据中心规模的生成式 AI 工作流，能效是 Hopper 的 25 倍，新一代架构在以下方面做了创新：

新型 AI 超级芯片：Blackwell 架构 GPU 具有 2080 亿个晶体管，采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片，通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。
第二代 Transformer 引擎：将定制的 Blackwell Tensor Core 技术与英伟达 TensorRT-LLM 和 NeMo 框架创新相结合，加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。
第五代 NVLink：为了加速万亿参数和混合专家模型的性能，新一代 NVLink 为每个 GPU 提供 1.8TB/s 双向带宽，支持多达 576 个 GPU 间的无缝高速通信，适用于复杂大语言模型。
RAS 引擎：Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能恢复能力，以识别早期可能发生的潜在故障，从而更大限度地减少停机时间。
安全 AI：内置英伟达机密计算技术，可通过基于硬件的强大安全性保护敏感数据和 AI 模型，使其免遭未经授权的访问。
解压缩引擎：拥有解压缩引擎以及通过 900GB/s 双向带宽的高速链路访问英伟达 Grace CPU 中大量内存的能力，可加速整个数据库查询工作流，从而在数据分析和数据科学方面实现更高性能。

英伟达 GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的片间互联，将两个英伟达 B200 Tensor Core GPU 与英伟达 Grace CPU 相连。在 90 天内训练一个 1.8 万亿参数的 MoE 架构 GPT 模型，需要 8000 个 Hopper 架构 GPU，15 兆瓦功率，Blackwell 架构只需要 2000 个 GPU，以及 ¼ 的能源消耗。8 年时间，从 Pascal 架构到 Blackwell 架构，英伟达将 AI 计算性能提升了 1000 倍！

nvidia-compute-growth

Data Center和消费级GPU卡

根据时间区线，以下是Data Center和消费级GPU卡出现的时间点和技术。

Release Year	GPU Model	Architecture	Memory (GB)	Key Features
2024	Blackwell (B100)	Blackwell	192	HBM3e memory, advanced NVSwitch, AI-optimized
2022	Hopper (H100)	Hopper	Up to 80	HBM2e memory, high AI training capacity
2022	RTX 40 Series (e.g., 4090)	Ada Lovelace	24	DLSS 3, 3^rd-gen RT cores, top gaming GPU
2020	RTX 30 Series (e.g., 3090)	Ampere	Up to 24	2^nd-gen RT cores, DLSS 2, Tensor cores
2018	Tesla T4	Turing	16	Optimized for AI inference, low power usage
2018	RTX 20 Series (e.g., 2080)	Turing	Up to 11	1^st-gen RT cores, DLSS introduction
2016	GTX 10 Series (e.g., 1080)	Pascal	Up to 11	Major leap in power efficiency
2014	GTX 900 Series (e.g., 980)	Maxwell	Up to 4	Efficiency improvement, DirectX 12 support
2012	GTX 600 Series (e.g., 680)	Kepler	Up to 4	Dynamic parallelism, high power efficiency

Here’s a table listing some of NVIDIA’s major data center/server GPUs released in recent years, organized by release date from the most recent to the oldest. This includes their key architectural features and target performance use cases, particularly for AI, high-performance computing, and data analytics:

GPU Model	Release Year	Architecture	CUDA Cores	Memory	Use Case
H100	2022	Hopper	14,592	80GB HBM3	AI model training, high-performance computing
A100	2020	Ampere	6,912	40-80GB HBM2e	AI/ML training and inference
V100	2017	Volta	5,120	16-32GB HBM2	Deep learning and scientific computing
T4	2018	Turing	2,560	16GB GDDR6	Inferencing, data analytics, virtual desktops
P100	2016	Pascal	3,584	16GB HBM2	HPC, machine learning
K80	2014	Kepler	4,992	24GB GDDR5	Scientific simulations, data analytics

而24年发布的Blackwell基于架构的下一代的 B100/B200 卡参数如下

GPU Model	Release Date	Architecture	Peak FP4 (Dense)	Peak FP4 (Sparse)	Peak FP16/BF16 (Dense)	Peak FP64 (Dense)	Memory	Memory Bandwidth	NVLink Bandwidth	TDP
B200	2024	Blackwell	9 PFLOPS	18 PFLOPS	2.25 PFLOPS	40 TFLOPS	192 GB	8 TB/s	1.8 TB/s	1000W
B100	2024	Blackwell	7 PFLOPS	14 PFLOPS	1.8 PFLOPS	30 TFLOPS	192 GB	8 TB/s	1.8 TB/s	700W

Summary of Differences: - The B200 outperforms the B100 in compute power, achieving up to 9 PFLOPS in dense FP4 and 18 PFLOPS in sparse FP4, compared to the B100's 7 and 14 PFLOPS, respectively. - For precision tasks, B200’s FP16/BF16 operations reach 2.25 PFLOPS, while the B100 peaks at 1.8 PFLOPS. - B200 also has a higher TDP (1000W vs. 700W for the B100), indicating its enhanced capability for demanding computational loads and improved scalability in server environments.

参考页面：

捐赠本站(Donate)

如您感觉文章有用，可扫码捐赠本站！(If the article useful, you can scan the QR code to donate))