Jun 20, 2024

聊聊大模型的另一面:能耗和成本,为什么基本只有中美能入局?

流逝之
by 流逝之
聊聊大模型的另一面:能耗和成本,为什么基本只有中美能入局?

这几天世界人工智能大会在上海召开,参会企业不少,但是基本上要么是做机器人的要么是做大模型的。有人吐槽里面大部分的大模型企业都是死路一条,而且现在是纯纯的浪费电力。我也深有同感,然后去扒了一下训练一个大模型的耗电情况,确实十分惊人,分享一下。

懒得看全文的直接看结论:根据英伟达的数据其2022年发布的H100显卡出货量,2022年55万张,2023年150万张,而2024年预计全年出货量在200万张,这些显卡跑起来的话全年耗电量会超过40TWh(400亿度),约等于全球总发电量的0.16%,美国的1%,中国发电量0.55%,北京用电量的42.05%,上海用电量的28.03%,广州用电量的52.56%,深圳用电量的46.72%。

大模型为什么这么耗电

  1. 大量计算:大模型(如GPT-4)包含数千亿个参数,这些参数的训练和更新需要进行大量的矩阵运算和浮点计算,这对计算资源和电力资源的需求非常高。
  2. 高性能硬件:训练大模型通常需要使用高性能的GPU或TPU,这些硬件虽然计算能力强大,但能耗也非常高(例如英伟达的H100,峰值能耗700W)。一个大型数据中心运行大量GPU集群,消耗的电力相当于一个小城市的用电量。
  3. 长时间运行:大模型的训练往往需要数周甚至数月的时间。在这段时间内,计算设备需要持续高负荷运行,进一步增加了电力消耗。
  4. 冷却需求:高性能计算设备在运行时会产生大量的热量,需要通过冷却系统进行散热,而冷却系统本身也消耗大量电力。

在大模型的训练过程中,主要的能耗来源占比:

  1. 计算处理(GPU/TPU):约占50-70%,这是主要的能耗来源。训练大模型需要进行大量的浮点运算和矩阵运算,这些计算任务通常由GPU或TPU来完成。GPU/TPU在满负荷运行时功耗极高,因此占据了能耗的大头。
  2. 数据存储和传输:约占10-20%,数据的存储和传输也需要消耗电力。特别是在分布式训练中,数据需要在不同计算节点之间传输,这会占用带宽和能耗。
  3. 冷却系统:约占10-20%,高性能计算设备在运行时会发热,大量发热就需要通过冷却系统进行散热。而数据中心通常会采用空调、水冷等等各种冷却方案,这部分能耗也是相当可观。
  4. 辅助设备(CPU、内存、网络设备等):约占5-10%,除了GPU/TPU外,训练过程毕竟是跑在电脑上,其他硬件设备的能耗也是必不可少。

相比于模型训练,模型推理(推断)的能耗通常要低得多,但由于推理是7*24小时的高频次服务,即使推理耗电量为训练一次的1/1000,其能耗也不少。

算算全球的H100需要消耗多少电力

根据英伟达的数据其2022年发布的H100显卡出货量,2022年55万张,2023年150万张,而2024年预计全年出货量在200万张,总计数量大概在400万张

单张H100的功耗:H100的峰值功耗是700W,在次假设单张H100 GPU的功耗为600瓦。

总功耗很简单:单张*总量

总功耗计算

全年运转下的耗电总量,当然实际使用率预计会在60%

算下来400万张卡全年运转需要消耗40000吉瓦时=40太瓦时(TWh)

这个级别的耗电量是个什么概念?

全世界主要国家发电量和耗电量(2022)

  • 全球总发电量:26,730 TWh。

主要国家发电量和耗电量:

  • 中国:发电量7,600 TWh,耗电量7,500 TWh。
  • 美国:发电量4,000 TWh,耗电量3,800 TWh。
  • 印度:发电量1,600 TWh,耗电量1,500 TWh。
  • 欧盟:发电量3,000 TWh,耗电量2,800 TWh。

中国主要城市用电量:

  • 北京:用电量100 TWh。
  • 上海:用电量150 TWh。
  • 广州:用电量80 TWh。
  • 深圳:用电量90 TWh。

全球高能耗产业耗电量

  • 铝冶炼:900 TWh。
  • 钢铁生产:1,000 TWh。
  • 化工产业:1,300 TWh。

算下来约等于全球总发电量的0.16%,美国的1%(美国在AI这种耗电大户疯狂用电的情况下整体用电量还是下降的),中国发电量0.55%,北京用电量的42.05%,上海用电量的28.03%,广州用电量的52.56%,深圳用电量的46.72%。

在全球高能耗产业中,这个耗电量相当于全球铝冶炼产业年耗电量的约4.67%,钢铁生产的约4.20%,化工产业的约3.24%。

当然上面只是计算了H100显卡,实际上市面上目前还有几百万的A100,这些卡也是在疯狂的运转中。

算力和能源需求的无限制增长,成本疯狂飙升,AI的未来在哪

马斯克在7月2日发推说自己家的xAI训练Grok-3用上了10万张H100(Grok-2还没亮相,已经开始为下一个版本造势了),而在6月份这哥们还说未来会搭建一个由30万张B200(功耗要到1000瓦)组成的超级集群,这时候不提拯救地球了,美国每1度电里可是有0.6度是不干净的。

全球对环境污染最严重的个人排行榜,马斯克榜上有名

Anthropic首席执行官说未来三年内,AI 大模型训练成本将上升至百亿甚至千亿美元(GTP-4训练成本已经快上亿美元了),而用电其实是一个相当大的成本之一。在这种高成本下,AI产业天然的就筛掉了一批先天不足的选手:有技术的没电(欧洲各国,人才会流向美国),有电的没钱(印度、俄罗斯),有钱的也只有钱(中东各国),最终牌桌上只留下了中美。

AI训练花费飙升

奥特曼在前不久的“世界人工智能向好大会上”预计,在未来将有10到20个大语言模型在全球范围内“存活”并发挥重要作用。中美各路大模型玩家也是疯狂训练,只为抢占未来的一席之地。隔三差五总有没听说过的新版本模型推出,在此我想给那些投机主义的公司一些建议,如果你是套壳就老老实实的套壳下去不要去训练模型,因为你的行为是妥妥的浪费资源,浪费的这些电真不如让我们普通人多吹会空调。

奥特曼谈AI的机遇、挑战与人类自我反思:中国将拥有独特的大语言模型

参考我上篇写的AI发展史,AI模型对算力的需求几乎是以每年10倍的速度在增长,即使英伟达不挤牙膏,每年GPU性能增长100%,对GPU的需求量也会每年数倍的增加,从而带来数倍的能源需求。训练模型就像是赛博炼丹,在一次次的尝试中寻找那虚无缥缈中的一丝可能性,为的就是最后大获成功的那一次。

果然AI的尽头是核聚变、是超导、是无限能源、是来自赛博坦星球的外星科技。

Comments(0)


Scroll down to load more data.
Continue Reading