天天看點

1次訓練用電2.4億度,AI 為什麼那麼耗電?

作者:返樸
1次訓練用電2.4億度,AI 為什麼那麼耗電?

僅僅是GPT-4的GPU,一次訓練就會用去2.4億度電。AI為什麼那麼耗電?它們用掉的電都跑到哪裡去了?有可能回收這些電轉化成的能量嗎?

撰文 | 猛犸

今天我們所說的人工智能(AI),主要指的是生成式人工智能。而其中一大部分,是基于大語言模型的生成式人工智能。

它們需要大規模的資料中心來訓練和推理。這些資料中心由大量伺服器組成,伺服器消耗的電能絕大部分轉化成了熱能,最後通過水冷系統釋放出來。是以也可以說,AI的實體硬體是個巨大的“電熱水器”。

這個說法聽起來好像有點奇怪。我們都知道,伺服器是一種電子計算機,而計算機中處理的是資訊。資訊和能量又有什麼關系呢?

還真有。

處理資訊需要消耗能量

1961年,在IBM公司工作的實體學家拉爾夫·蘭道爾(Rolf Landauer)發表了一篇論文,提出了後來被稱為“蘭道爾原理”(Landauer's Principle)的理論。這一理論認為,計算機中存儲的資訊發生不可逆的變化時,會向周圍環境散發一點點熱量,其散發的熱量和計算機當時所處的溫度有關——溫度越高,散發的熱量越多。

蘭道爾原理連接配接起了資訊和能量;更具體地說,連接配接到了熱力學第二定律上。因為邏輯上不可逆的資訊處理操作,也就意味着湮滅了資訊,這會導緻實體世界中熵的增加,進而消耗能量。

這一原理自提出以來遭受過不少質疑。但是近十幾年來,蘭道爾原理已被實驗證明。2012年,《自然》雜志發表了一篇文章,研究團隊首次測量到了一“位”(bit)資料被删除時釋放的微量熱量。後來的幾次獨立實驗,也都證明了蘭道爾原理。

是以,處理資訊是有能量成本的。

現在的電子計算機在計算時實際消耗的能量,是這個理論值的數億倍。科學家們一直在努力尋找更高效的計算方法,以降低成本。不過從目前的研究進展情況來看,也許隻有真正的室溫超導材料能廣泛應用于計算裝置時,這個能耗才有可能離蘭道爾原理所描述的理論值近一些。

AI大模型确實需要大量計算。它的工作過程大緻可以分為訓練和推理兩個階段。在訓練階段,首先需要收集和預處理大量的文本資料,用作輸入資料。然後在适當的模型架構中初始化模型參數,處理輸入的資料,嘗試生成輸出;再根據輸出與預想之間的差異,反複調整參數,直到模型的性能不再顯著提高為止。而在推理階段中,則會先加載已經訓練好的模型參數,預處理需要推理的文本資料,再讓模型根據學習到的語言規律生成輸出。

無論是訓練還是推理階段,都是一連串資訊重組過程,也同樣遵循蘭道爾原理。而我們也不難推知,模型的參數量越大,需要處理的資料越多,所需的計算量也就越大,所消耗的能量也就越大,釋放的熱量也就越多。

隻不過,這隻是AI耗電中微不足道的一小部分。更大的消耗來自另一個我們更熟悉的實體定律:焦耳定律。這就要從內建電路說起了。

更“大頭”能耗來自電流

今天的電子計算機建立在內建電路的基礎上。我們經常把內建電路叫做晶片。每個晶片中,都有許多半導體。

不嚴格地描述,半導體可以了解成微小的開關。這些開關串聯或者并聯在一起,就可以實作邏輯運算。“開”和“關”表示兩種狀态,也就是所謂的1和0,這就是計算的基本機關“位”。它是計算機二進制的基礎。計算機通過快速改變電壓,來撥動這些開關。

改變電壓,需要電子流入或流出。而電子流入流出,就構成了電流。又因為在電路中總是有電阻,就産生了熱能。焦耳定律告訴我們,産生的熱量與電流的平方成正比,與導體電阻成正比,與通電時間成正比。

內建電路技術發展到今天,晶片中的半導體已經變得極為微小。是以,單個半導體所産生的熱量并不會太高。但問題是,晶片上的半導體實在是已經多到了常人無法想象的程度——比如,在IBM前幾年釋出的等效2納米制程晶片中,每平方毫米面積上,平均有3.3億個半導體。再小的熱量,乘上這個規模,結果一定相當可觀。

一個可能讓人大跌眼鏡的有趣事實是,今天晶片機關體積的功率,比太陽核心多出好幾個數量級。典型的CPU晶片功率大概是每立方厘米100瓦,即每立方米1億瓦;而太陽核心的功率隻有每立方米不到300瓦。

在OpenAI訓練大語言模型GPT-4時,完成一次訓練需要約三個月時間,使用大約25000塊英偉達A100 GPU。每塊A100 GPU都擁有540億個半導體,功耗400瓦,每秒鐘可以進行19.5萬億次單精度浮點數的運算,每次運算又涉及到許多個半導體的開關。

容易算出,僅僅是這些 GPU,一次訓練就用了2.4億度電。這些電能幾乎全部轉化成了熱能,這些能量可以将大約200萬立方米冰水——大概是1000個奧運會标準遊泳池的水量——加熱到沸騰。

為什麼AI需要用這麼多的強大GPU來訓練?因為大語言模型的規模實在太大。GPT-3模型擁有1750億參數,而據推測,GPT-4擁有1.8萬億參數,是GPT-3的十倍。要訓練這種規模的模型,需要在大規模資料集上反複疊代,每一次疊代都需要計算和調整其中數十億、數百億乃至數千億個參數的值,這些計算最終會表現為半導體的開開關關,和內建電路中細細的電流——以及熱量。

能量無法創造也無法消滅,它隻能從一種形式轉化成另一種形式。對于電子計算機來說,它最主要的能量轉化方式,就是從電能轉化成熱能。

大語言模型也是如此。它對電能和冷卻水的需求,正帶來越來越嚴重的環境問題。

回收“電熱水器”中的熱量?

就在前幾天,有微軟公司的工程師說,為了訓練GPT-6,微軟和OpenAI建造了巨大的資料中心,将會使用10萬塊英偉達H100 GPU——性能比A100更強,當然功耗也更大——但是,這些GPU不能放在同一個州,否則會導緻電網負荷過大而崩潰。

AI發展帶來的能源短缺問題,已經開始浮現。在今年的達沃斯世界經濟論壇上,OpenAI的CEO山姆·阿爾特曼(Sam Altman)認為,核聚變可能是能源的發展方向。但要開發出真正可用的核聚變技術,可能還需要一些時間。

水的問題也是一樣。過去幾年,那些在AI大模型領域先行一步的大企業們,都面臨水消耗大幅增長的局面。2023 年6月,微軟公司釋出了2022年度環境可持續發展報告,其中用水一項,有超過20%的顯著增長。谷歌公司也類似。

有研究者認為,AI的發展,是這些科技巨頭用水量劇增的主要原因——要冷卻瘋狂發熱的晶片,水冷系統是最常見的選擇。為AI提供硬體基礎的資料中心,如同一個巨大的“電熱水器”。

如何讓這些散失的熱能不至于白白浪費?最容易想到也容易實作的,是熱回收技術。比方說,将資料中心回收的熱量用于提供民用熱水,冬季提供民用采暖。現在有一些企業已經着手在回收廢熱再利用了,例如中國移動哈爾濱資料中心、阿裡巴巴千島湖資料中心等。

這大概也算是一種解法,但并不能從根本上解決問題。AI産業的發展速度之快,在人類曆史上沒有任何産業能與之相比。平衡AI技術的發展與環境的可持續性,可能會是我們未來幾年的重要議題之一;技術進步和能源消耗之間的複雜關系,從來沒有這麼急迫地出現在人類面前。

本文受科普中國·星空計劃項目扶持

出品:中國科協科普部

監制:中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司

1次訓練用電2.4億度,AI 為什麼那麼耗電?

特 别 提 示

1. 進入『返樸』微信公衆号底部菜單“精品專欄“,可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關注公衆号,回複四位數組成的年份+月份,如“1903”,可擷取2019年3月的文章索引,以此類推。

版權說明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公衆号内聯系背景。