天天看點

AI 正在“吸幹”全球電力?算力與電力的抉擇

作者:壹零社愛科學
AI 正在“吸幹”全球電力?算力與電力的抉擇

01

能耗幾何?

資料和算力是驅動本輪AI技術飛速發展的主要引擎,隻要關注AI産業,都能明确感受到海量資料和大算力晶片對“百模大戰”的影響力。而AI在給人類生産過程帶來巨大變革的同時,也給全球電力系統帶來了巨大挑戰。

AI到底有多耗電?2020年,OpenAI預訓練GPT-3這樣的大語言模型參數達到1750億,需要将近1300兆瓦時的電力,相當于130萬度電,足夠130個美國家庭的用一年;前面還隻是訓練大模型的用電量,ChatGPT現在每天還要消耗50萬千瓦時的電力來回應使用者超2億個需求,已經是美國家庭平均每天用電量(27千瓦時)的1.7萬多倍。

而GPT預訓練所需的參數已經從1750億,提高至GPT-4的1.8萬億,再到GPT-5即将突破的10萬億,意味着隻要生成式AI應用的範圍越來越廣,耗電量隻會節節攀升。

AI 正在“吸幹”全球電力?算力與電力的抉擇

部分大模型訓練參數資料

民生已經共此涼熱。4月初美國勞工部公布的資料顯示,美國電力價格今年3月已經同比上漲了5%,漲幅超過汽油,而導緻電價上漲的主要因素正是AI新增的電力需求。

标準普爾全球副主席耶金(Dan Yergin)認為,近兩年美國電力需求激增,AI和各類資料中心的電力需求增長最為迅猛,但美國目前的發電能力遠不及需求,鑒于電力項目審批許可時間較長,短期内美國電力供給短缺的情況很難改善。

深入業界發展前沿的頭部企業更是對此感覺明顯,今年2月,特斯拉創始人埃隆·馬斯克在博世集團舉辦的“博世物聯網大會”上表示,AI的束縛是可以預測的,“一年前我預測會缺矽,也就是晶片短缺,下一個就是電力。可能到明年我們就沒有足夠的電力來運作所有晶片了”。

AI 正在“吸幹”全球電力?算力與電力的抉擇

此前,OpenAI的CEO山姆·奧特曼也看好核聚變和核裂變發電廠的建設,他指出AI将消耗比人類想象中還要多的電力,未來必須實作能源突破,才能支援AI的疊代。

如果光是羅列資料,可能還是有些抽象,到底為什麼處理參數資訊、AI聊天機器人會和能源扯上關系?這就要從處理資訊産生的熱量說起。

02

永恒的熱量消耗

“處理資訊有能量成本”的最佳證明,就是電腦工作時産生的熱量。計算機在運作時會發熱這已經是衆所周知的現象,而這正是由計算機的工作原理所決定的。

1961年,IBM公司的實體學家羅爾夫·蘭道爾(Rolf Landauer)曾經在論文中計算過一台“完美計算機”的理論效率,這台計算機理論上在對抗阻力方面沒有損耗能量。但是即便有這麼一台計算機,也一定會浪費一些能量,因為計算機也是一種機器——隻不過是以位元組的形式儲存和處理資訊——隻要是機器,就必然會遵循熱力學第二定律,即在任何封閉系統中,無序狀态(一種被稱為熵的量)總在增加。

AI 正在“吸幹”全球電力?算力與電力的抉擇

蘭道爾原理認為,即使是最簡單的計算過程,也必然會産生熱力學消耗

現有的經典計算機幾乎都是不可逆計算機,資訊處理的操作邏輯上不可逆的,也就意味着資訊不斷消失也會導緻實體世界中熵的增加,進而消耗能量。蘭道爾認為,熵的減少隻能用能量來交換。

根據他的計算,即使是最簡單的計算過程,比如删除一個位元組,也必然會産生一個微小的熱力學消耗。換句話說,當計算機中存儲的資訊發生不可逆的變化時,會向周圍環境散發微量熱量。

當然,它散發的熱量也和計算機當時所處的溫度有關:溫度越高,散發的熱量越多,這也是為什麼現在資料中心的伺服器都會配備相應的冷卻系統,讓熱量通過水冷系統釋放出來。

AI 正在“吸幹”全球電力?算力與電力的抉擇

現在的電子計算機在執行計算任務時,實際消耗的能量其實是蘭道爾所計算的理論值的數億倍,科研人員也一直在尋找更高效的計算方法來降低這個能耗成本,比如對室溫超導材料的不懈追求。

超導材料具有零電阻導電的特性,電流在其中可以無能量損耗地流動,這意味着在超導材料中建構的電路不會産生熱量,進而也就把處理資訊所需的能量成本全部消解了;“室溫”超導則意味着它也無需極低溫度的制冷設施,而這些制冷裝置通常也會消耗大量能量。

放到AI大模型中,我們可以從蘭道爾原理中推導出一個很簡單的推論:模型的參數量越大、需要處理的資料越多,所需的計算量、所消耗的能量也就越大,釋放的熱量也就越多。在大模型預訓練階段,首先需要“喂”給計算機大量處理标記過的文本資料;然後在精心調校的模型架構中,處理輸入的資料,嘗試生成輸出;根據輸出成果與預想中的效果的差異,再反複調整模型參數。

AI 正在“吸幹”全球電力?算力與電力的抉擇

不同AI應用方向每一千次查詢需要消耗的電量

在大模型接入具體應用面向C端開放時,它的推理電費賬單要遠高于訓練,根據施耐德電氣測算,資料中心的AI負載有80%來自推理階段,隻有20%來自訓練。推理階段會先載入已經訓練好的模型參數,預處理需要推理的文本資料,再讓模型根據學習到的語言規律生成輸出。總的來說,無論哪個階段,對于計算機來說都是一連串資訊重組的過程。

但這種由于資訊增加帶來的熱量消耗在AI能耗中還隻是九牛一毛,更大的消耗還在內建電路中。

03

晶片之果

內建電路也就是晶片,在資訊處理過程中,電流因在晶片中受到阻礙會産生電力消耗,并會以熱量的形式表現出來。

在以納米為機關的晶片上,往往有數億個半導體協同工作,這些半導體可以看做是由電壓控制的極微小的開關,把它們全部串聯或并聯在一起就可以實作邏輯運算,“開”“關”兩種狀态即代表“0”“1”,也就是計算機二進制的基礎。

AI 正在“吸幹”全球電力?算力與電力的抉擇

歐姆定律告訴我們,通過控制電壓變化,我們可以改變電子的流入和流出,也就構成了電流,同時也總會有電阻的産生;焦耳定律又證明,産生的熱量與電流的平方成正比,也與導體電阻和通電時間成正比。盡管單個半導體十分微小,能産生的熱量不高,但光是英偉達A100 GPU上就擁有540億個半導體,再微弱的熱量放置于這個規模背景下都相當龐大。

“如果在美國一個州放置超過10萬片英偉達H100 GPU,那那個州的電網會立刻崩潰。”這是微軟一名工程師前段時間對媒體透露的資訊,他的工作恰好是在微軟和OpenAI共同建立的資料中心訓練新的GPT-6大模型。

英偉達H100 GPU的性能要比ChatGPT最初所用的A100強大得多:H100是專為AI計算設計,內建了800億個半導體,針對GPT等大模型的基本架構Transformer搭載了優化引擎,讓大模型訓練速度提高6倍,能耗方面也不遑多讓。

市場調研機構Factorial Funds的報告顯示,OpenAI的文生視訊模型Sora在流量峰值期間需要至少72萬塊H100,每塊H100功耗大約700瓦,可以提供高達60 TFLOPs的理論峰值性能,也就是每秒鐘可以進行60萬億次單精度浮點數的運算,每次運算又涉及到許多個半導體的開關。

AI 正在“吸幹”全球電力?算力與電力的抉擇

為什麼我們需要越來越多計算能力強大的GPU來訓練AI?這就又回到了開頭,因為大模型的規模實在太大,參數能達到萬億級别。所需的資料集也需要反複疊代,每次都需要計算和調整裡面數百上千億個參數的值,半導體不斷開關,能耗不也就來了?

解決這個問題的方法之一是改變硬體的實體特性,突破摩爾定律的限制。這個我們之前的文章中也提過,那就是把現代計算機的基礎“矽晶片”,替換為某些新材料,比如石墨烯、碳納米管等“碳基”晶片。要麼,就向外尋求能源的突破。“人造太陽”還太遠,不如先押注風光電和儲能技術的更新。

繼續閱讀