基于 NVIDIA GPU 的大模型全球算力供需分析 | 北拓研究
2024-03-26 18:00
作者|North Beta Labs 付昊 Ryker 万众瞩目的 NVIDIA 2024 GTC 大会已结束,新品的发布与此前市场调研的预期基本一致,最近频繁被问到全球算力市场供需格局究竟是怎样的?大模型的训练和推理还需要多少算力,于是趁周末抽出项目上的精力,熬了个通宵把这边文章肝出来,由于今天市场上大部分数据都是未公开的,笔者尽可能的收集并假设勾勒了一个算力市场的样貌,给大家一个量级上的体感,欢迎各位交流指正。
我们先回顾一下 NVIDIA2023 年 Q3 的订单排期情况,根据 Omdia Research 的数据,NVIDIA 在 2023 年第三季度大约售出了 50 万片 H100/A100,其中 H100 的服务器交货期长达 52 周。2024 年 NVIDIA GPU 的订单继续火爆预定中,根据近期新闻披露的数字,Microsoft 追加下单了 12 万台服务器,其中包括 96 万片 H100,32 万片 B200;Meta 下单了 35 万片 H100,6.96 万片 B200。其他的一些小道消息未证实的包括 Google 40 万片 H100,Amazon 30 万片 H100,Oracle 10 万片 H100,X.AI 8 万片 H100 等。从另一角度我们交叉验证一下大厂的 24 年采购预算,从北美四大云厂商(Amazon、Microsoft、Google、Meta)2024 年的 CAPEX 分析预测, 参考中信证券数据,预计 2024 年北美四大云厂商的对应的 GPU 采购需求已经在 300 万片量级。基本与流出的订单数量一致。过去两年大模型的参数量,训练数据以每年一个量级的速度在增长,从百亿参数模型到万亿参数甚至 10 万亿参数级的模型,市场算力的需求也以每年数倍的速度在增长。而这仅仅是头部大厂的通用大模型的训练需求的爆发,下游应用的推理算力需求还受到供应限制中。2024 年开年 Sora 视频生成大模型的出现再次引爆了文生视频的算力需求,今天 GPT4 模型对话一次大约需要计算 1000 token 的数据,而 Sora 生成一个视频至少要计算 1M token 的数据,差距为 1000 倍。所以 OPENAI 并没有放出 Sora 的公测,因为当下市场的算力还远远无法支撑广大用户体验这种级别的文生视频大模型。大模型的训练和推理现状和趋势究竟是怎样的,下面是笔者针对市场部分主流大模型的公开数据信息和假设,对未来一年全球大模型训练和推理需求进行的简单的预测分析,供大家参考。声明:下述模型算力估算方式较为简单粗暴,数据来源于互联网公开资料收集和主观假设估算,MOE 模型的稀疏激活,不同模型的架构,性能等各不相同,此处大部分计算使用统一的简化假设公式,仅供粗略参考量级,后期会持续细化,也欢迎指正探讨。
大模型训练篇
所需 GPU 数量 = (训练阶段每 token 浮点运算次数 * 训练数据集 token 数 * 模型参数量)/(训练时间 *GPU 峰值算力 *GPU 利用率)
考虑到大模型赛道竞争愈发激烈,这里的假设前提是模型要在 30 天内完成训练。
下图是今天市面上已推出的部分多模态与文本对话大模型的训练算力估算:对于参数量大于 1 万亿的模型,一般采用 MOE 架构,对公式进行了单独的微调。例如 OPENAI 的 GPT4,参数量 1.8 万亿,训练数据量 13 万亿 tokens,我们假设玩转万亿参数以上的这类大厂可以把 GPU 利用率提高到 90%,如果训练目标是 90 天完成,则需要 8000 块 H100,如果目标 30 天完成则需要 24000 多块 H100。目前大家预测 GPT5 的模型参数量会继续提升 10 倍,假设训练数据量提升到两倍,那么 GPT5 的训练需要 49 万块 H100。按照目前的趋势,我们假设未来 1 年会训练 5 个 GPT5 级别的 10 万亿参数大模型,50 个 GPT4 级别的万亿参数大模型,那么 H100 需求量将达到约 370 万块。文生图与文生视频大模型的模型参数量较小,一般在几十亿到几百亿,训练数据量较大。文生图大模型如最新的 Stable Diffusion 3,最大版本模型参数为 80 亿,粗略估算了下大概需要 2300 块 H100 训练。下图是今天市面上已推出的部分文生图大模型的训练算力估算:我们假设未来 1 年会有 50 家 Stable Diffusion 3 级别的文生图大模型的训练需求,对应的 H100 需求量将达到 11.5 万块。文生视频大模型如最新的 Sora,训练数据量会非常大,一般一分钟的视频约为 1M tokens,行业内估计 Sora 的训练数据量至少为 1 亿分钟的视频,也就是 100 万亿 tokens。Sora 目前尚未披露相关参数量和训练数据量,目前网上多方估计参数在 30 亿 -200 亿,这里笔者比较倾向于 100 亿的估计,这样计算下来 Sora 训练所需的 H100GPU 数量约为 5851 块。下图是今天市面上已推出的部分文生视频大模型的训练算力估算:2022 年 youtube 每分钟上传的视频达 500 小时,那么每年上传的视频达 157.68 亿分钟,相比今天训练使用的 1 亿分钟数据,训练数据增长的空间还十分巨大。我们假设未来 1 年会有 20 家 Sora 级别的文生图大模型的训练需求,对应的 H100 需求量将达到 11.7 万块。今天文本对话大模型能力已经相对成熟可用,各大厂商以 GPT4 的能力为标杆看起,之所以还未大规模公测推广旗下的大模型产品,主要是由于算力储备限制,例如 GPT4 推出至今仍然限制每 3 小时尽可互动 40 条信息。1.推理阶段算力需求 = 2 * 模型参数数量 *token 生成数2.用户每月产生 token 数量 = 月活跃人数 * 平均问题字数3.模型生成总 token 数所需算力 = 月总 token 数 *2* 模型参数量4.H100 GPU 所需数量 = 模型生成总 token 数所需算力 / 一月时间 / 单芯片最大有效算力5.30 天所需时间 = 30days*24h/day*60min/h*60s/min根据上述公式我们估算一下 chatGPT 当下的算力需求:今天 chatGPT 的月活用户超过 2 亿人,我们假设 GPT3.5 单次对话为 300tokens,平均每人每天对话 10 次,那么每月每用户平均产生 90000tokens,每月需要 6.3E+24flops 的算力,大概需要 3511 块 H100 支撑。OPENAI 大概率会在今年推出 GPT5 或其他代号的新模型,若届时 GPT4 免费,单次对话 500tokens,平均每人每天对话 10 次,那么每月每用户平均产生 150000tokens,每月需要 1.06E+26flops 的算力,大约需要 58848 块 H100 可支撑。假设 GPT5 参数量增加 10 倍,付费人数为 20%,按照 4000 万人计算,每月每用户产生 300000tokens,每月需要 4.22E+26flops 算力,大约需要 235394 块 H100 支撑。今天互联网科技巨头若将大模型产品融入任何一款旗下的 C 端应用,所需要的算力都是极其庞大的。例如微软在 Bing 搜索引擎中尝试融入了 chatGPT,若放开体验,Bing 月活用户数达 30 亿人,假设每人每月产生 45000tokens,需要 264818 块 H100 支撑。百度文心一言据称月活突破了 1 亿人,但百度搜索用户数有 10 亿,日搜索量在 60 亿,今天千亿参数的文心一言支撑 1 亿月活也需要 1000 块 H100,未来会是数十倍的需求增量。抖音日活用户数约 8 亿人,若以今天的千亿参数模型开放体验,至少需要 10000 块 H100 支撑。可以确定的是,这些大厂的模型必然会对标 OPENAI,继续将参数继续放大到万亿甚至十万亿和更高级别。下图是今天市面上已推出的部分文本对话模型推理所需算力估算:综上所述,如果文本对话大模型以今天和未来 1 年的 GPT4-GP5 级别为对标,仅 10 个月活过亿的大厂级别应用需求就将达到 100 万~500 片 H100 的算力需求。今天文生图大模型能力仍日新月异,以 Midjourney 和 Stable Diffusion 为标杆代表,随着模型效果的进步,作为生产力和娱乐工具,未来使用频率将指数级的提升。1.由于文生图大模型对显存占用较高,这里采取了另一种估算方式,核心考虑模型的并发量3.H100 显存容量为 80GB,可划分为 7 个 MIG 实例,80/7 = 11.43GB5.H100 GPU 所需数量=( 日均生成照片数 /10000)* 单次推理所需显卡数量根据上述公式我们估算一下 Midjourney 当下的算力需求,据媒体报道 Midjourney 用户数以达 3000 万人,假设用户每天需要生成 2 张成品图,至少需要批量生成 20 张图片优选,则需要约 171429 块 H100 支撑。Stable Diffusion 的用户量估计有 2000 万,也可能有 3000 万,按照 2000 万用户假设,需要 114286 块 H100 支撑。上述需求量显然今天的算力还是满足不了,所以用户任务经常需要等待大量的时间进行排队。下图是今天市面上已推出的部分文生图模型推理所需算力估算。趋势是明确的,未来文生图大模型若想形成生产力和娱乐应用,算力将继续扩大十倍至百倍。以 Bing 为例,假如 30 亿用户每人每天生成一张图片,则需要 428571 块 H100 作为支撑。我们假设未来一年有 10 款 Midjourney 级别的生产力工具出现,对应的就是 170 万块 H100 的需求。
前面文本对话和文生图大模型想达到初步的开放应用预计就是数百万至千万块 H100 的需求了,但文生视频大模型更是重量级。Sora 大模型的发表震撼了业界,60 秒,30 帧,1080P,直接将单次推理算力需求提升了 1000 倍。算力需求爆炸式提升。
1.假设 1920x1080 分辨率的高清图像约为:64x32=2048 个 patch3 推理所需数据量 = 视频平均生成长度 * 每秒帧数 * 单帧 patch 数 * 平均每月生成视频数4.假设在实际推理时,需要 50 个 step 生成视频5.推理所需算力 = 2* 模型参数量 * 推理所需数据量 *50step6.H100GPU 所需数量 = 模型所需总算力 / 一月时间单卡算力根据上述公式我们估算一下 Sora 的算力需求,Sora 推理一个 1min 的视频所需 token 为:64*32*60*30=1.84E+5,假设 Sora 开放体验,即使 OPENAI 的 2 亿用户每人每月只可创建 1 条视频,就需要 159782 块 H100 支撑。如果放大到每人每天可创建 1 条视频,H100 的需求数量就达到了 479 万块。下图是今天市面上已推出的部分文生视频模型推理所需算力估算。除 Sora 外,今天已开放可用的视频生成大模型如 Runway,Pika 等仅供生成 3-10 秒的小视频,且效果距 Sora 仍有很大差距。但可以确定的是大家都将以 Sora 为标杆继续演化模型能力。假设未来一年有 4 家厂商达到 Sora 模型的能力水平,并可以开放到每人每天可创建 1 条,则文生视频大模型的算力需求至少为 2000 万块。假设如抖音 /Tiktok 这类短视频平台接入文生视频大模型应用,每月将至少创造 8 亿 *10=80 亿条视频生成需求,需要 639 万块 H100 作为支撑。假设未来一年有 3 个抖音级别的短视频社交平台接入,则需要 1917 万块 H100 作为支撑。总结上述分析,未来一年训练端的 GPU 需求数量约为 400 万片量级,未来一年推理端 GPU 的需求数量约为 2500 万片。可见大模型推理算力缺口巨大,大模型应用想真正规模化落地需要更好的算法优化与性能更强大的 GPU。关于 NVIDIA 新品性能,请参考第三章的展开介绍。首先介绍一下 NVIDIA GPU 供应链的背景现状:- NVIDIA 旗舰级 GPU 的出货量取决于上游 CoWoS 封装产能(台积电)和 HBM 显存产能(SK 海力士、三星),主要取决于 CoWoS 封装产能;
- 目前可满足 NVIDIA 旗舰级 GPU 的厂商主要为台积电,UMC/Amkor 等其他厂商可分流部分成熟型号产能,但良率较低;
- NVIDIA 历代旗舰级新品仅台积电可满足生产,如 B200 系列,在大约 18 个月后可由其他厂商分流产能;
- 台积电的 CoWoS 晶圆产能在 2023 年底达到 12K/ 月,根据多方媒体和机构预测,预计 2024 年底产能将翻倍至 24K/ 月,乐观预测至 36K/ 月;
- 2024 年是台积电产能扩容最激进的一年,根据台积电业绩说明会上的计划,未来三年的 CoWoS 产能复合增长率目标是 50%。
基于以上背景信息,下面是针对 NVIDIA 供应链产能预测分析,量产数据基本可以对应 NVIDIA 在 2024 自然年 1000-1200 亿美元的收入水平。我们对 B 系列和下一代的 X 系列的 GPU 单卡性能提升假设如下,乐观预计 X 系列相较 B 系列继续提升 2-4 倍性能:如果台积电 2024 年月产能翻倍达到 2.4 万片晶圆 / 月的正常情况下预测:如果台积电 2024 年月产能乘 3 倍达到 3.6 万片晶圆 / 月的乐观情况下预测:- 英伟达 2024 年 H 系列 GPU 的出货量大约在 223~266 万片,B 系列 GPU 的出货量约在 21~29 万片;
- B 系列 GPU 将于 2025 年开始规模出货,预计出货量达到 84~122 万片;
- 以最乐观的情况下来看,24 年的新增算力仅够支撑全球主流大模型后续迭代的升级的训练算力需求;
- 应用端推理的算力缺口我们需要寄希望于第五代 NVLINK 带来的 NVL72 集群的推理性能提升。
30 倍推理性能提升?需要看清楚是最新的 GB200 NVL72 系统集群而不是单卡。
GB200 NVL72 是英伟达官方的系统级产品方案,这里的的 72 只内部有 72 个 Blackwell 芯片,36 个 Grace CPU,9 个 NVSwitch Tray。得益于第五代 NVLINK 和第四代 NVSwitch 芯片,实现了最高 30 倍的推理性能提升。但 NVIDIA 并没有具体说这个 30 倍对比的 H100 是放在怎样的系统集群下,以及整个系统组件的售价,NVSwitch 芯片的产量等。所以这个 30 倍我们先看看就好,具体还是先关注单芯片性能的提升。B200 单卡在物理性能上的提升并不是很多,大约在 2.2-2.5 倍。B200 采用的是 Blackwell 架构,由于现有的掩模版尺寸和光刻技术限制,ASML 旗舰 EUV 的曝光场的理论最大值是 858 平方毫米,所以 NVIDIA 选择把两个芯片拼接在一起,以 10TB 每秒的带宽互联,组成了 B200 GPU,总计包含 2080 亿个晶体管。B200 仍然使用 4nm 制程,其面积大约比 H100 大了一倍。从大模型训练的角度来看,今天模型训练通常会使用混合精度、自适应精度等进行加速,主流还是 FP16/FP32,以 FP16 为例,性能提升为 2.27 倍(2250/990TFLOPS)。但这是两个 Die 拼起来达到的效果,实际看单芯片性能提升大概只有 13.5%。从大模型推理的角度来看,由于B200 系列芯片首次支持了 FP4 精度,对推理性能的提升潜力是巨大的,相比 Hopper 架构推理性能最高提升了 5 倍。这也真正支撑了,加速了大模型应用的低成本大规模落地的可能性,仅以 H100 的推理性能,其量产速度还远远无法支撑今天大模型面向亿级别用户的规模使用算力需求。推理测今天还要适应一下 FP4 精度,现在推理任务通常也至少使用 FP8 或 FP16 来保持性能和准确度。H200 作为 H100 的小改款,预计今年可出货,但性能提升有限,产量不明。H200 的算力规格和 H100 基本保持一致,只是提升了显存,使用最新的 HBM3E 显存,最大 80GB 提升到了 141GB。实际表现是训练性能约提升 10%,大显存推理性能提升 60%-90%。H200 在 2023 年 11 月发布后至今没有公布价格,市场上也没有开放预定,今年的产量也不好说,也许仅有的 HBM3e 都拨给了 B200 了,不过老黄向来刀法精准,可以肯定的是,售价必然是比 H100 要贵的,H100 的市场地位不用担心。2020 年发布的 A100 GPU 今天还在原价 / 溢价销售
A100 的官方首发价格是 1 万 -2 万美金,对应 40G 版本和 80G 版本,2023 年大模型训练最火爆的时候,80GB 版本售价一度被炒到 4 万美金一片,近期零售和二级市场回落到了 2 万美元左右。(下图中价格截自 2024 年 3 月 22 日)
2022 年发布的 H100,今天仍然溢价约 200%H100 的官方首发价格约 3.3 万美元,最高时被炒到 5 万美元,今天零售商或二级市场的价格近期一直稳定在 4.5 万美元左右。(下图中价格截自 2024 年 3 月 22 日)其实 N 卡的官方售价也不是固定的,就像老黄经常讲的"The more you buy,The more you save",例如 H100,根据经销商跟合作伙伴的等级,以及购买数量,价格最低可在 2W5 美元左右,所以跟老黄最紧密的大客户跟合作伙伴,买到就是赚到是没错的。就像前几年矿场老板,GPU 用几年还能“二手 99 新”原价卖出去一样,Tier 1 的经销商和云厂商合作伙伴永远不亏。B200 的官方首发售价不会低于 4 万美元,经销商售价不会低于 5 万美元。
老黄在 GTC 大会后接受 CNBC 采访时手拿 B200 芯片表示,B200 的售价会在 3-4 万美元之间,并表示这款芯片的研发投入达 100 亿美元。
按照过往产品的发售定价情况,我们可以预测 B200 的官方裸片首发价格会在 4 万美元,随着出货量不断加大后可能在某个时间降价至 3 万 + 美元。不过受限于供应链,今年的主力卡仍然是 H100,B200 量产主要看向明年了。观点总结
今天摩尔定律已经接近了物理极限,由于量子隧穿效应的影响,3nm 的良率很低,所以 NVIDIA 今年在 B 系列上并没有采用新的制程;
未来 NVIDIA GPU 在硬件上的性能提升将主要寄希望于 3D 堆叠 /chiplet 技术,但同时也要面临体积,功耗和发热的挑战;
GPU 的物理性能提升已经愈发缓慢和困难,每一代新 GPU 的生命周期将越来越长,未来主要寄希望于模型本身的算法优化,网络剪枝、权重量化等;
今天 A100 GPU 仍然没有退出主力大模型 GPU,H 系列卡的生命周期预计会持续 5-8 年;
N 卡的保值率极高,如同当年数字货币矿场老板一样,最近两年先拿到卡的 Tier 1 GPU 云厂商做的是稳赚不赔的生意;
大模型军备竞赛仍在继续,即使边际效应递减,模型的参数量仍以每年一个量级的速度在增长,高质量的训练数据只要投入资金仍然可以继续获取;对标 OPENAI 的技术能力,未来一年全球大模型训练端的 GPU 需求数量约为 400 万片量级,Sora 级别产品的出现将算力需求放大了 1000 倍,大厂若想将模型产品接入现有应用,未来一年推理端 GPU 的需求数量约为 2500 万片。
但算力供应增速仍有所滞后,预计 2024 年 NVIDIA 新增等效 H100 的训练算力为 275~340 万片,等效 H100 的推理算力为 326~413 万片;预计 2025 年 NVIDIA 新增等效 H100 的训练算力为 528~712 万片,等效 H100 的推理算力为 1020~1426 万片;
无论是生产力还是娱乐,大模型产品有着巨大的想象空间,但想规模化推向应用端,仍存在相当大的算力缺口;
按照目前 GPU 供应链的产能扩张计划,未来 2-3 年算力供不应求现象或许将持续存在。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。