天天看點

AI 大模型背後的驚人數字:問 ChatGPT 5 個問題,耗水 500 毫升?

作者:InfoQ

作者 | 淩敏、核子可樂

ChatGPT 的爆火掀起了 AI 大模型熱潮,但科技進步始終是把雙面劍,AI 大模型帶來諸多便利的同時,也引發了人們關于能源消耗與環境污染的擔憂。此前,曾有研究稱訓練 GPT-3 的碳排放量等同于開車往返月球,也有研究稱訓練人工智能模型比長途飛行排放的碳要多得多。

能源消耗方面,建構大語言模型需要分析海量人類文章内容中蘊藏的模式,所有這些計算都要消耗大量電力并生成可觀的熱量。為了保持涼爽,資料中心需要泵水冷卻,并将其存儲在機房之外如倉庫般大小的冷卻塔中。

近日,外媒報道稱,微軟用于支援 OpenAI 的技術設施需要大量用水,這些水抽取自愛荷華州中部浣熊河和得梅因河的分水嶺處,被用于冷卻一台強大的超級計算機。一份研究顯示,ChatGPT 這類 AI 大模型耗水量驚人:使用者每向 ChatGPT 提出 5-50 條提示詞或問題,ChatGPT 就會消耗掉 500 毫升的水。

問 ChatGPT 5-50 個問題,耗水 500 毫升

日前,微軟在其最新環境報告中透露,從 2021 年到 2022 年,公司全球設施用水量猛增了 34%(達到近 17 億加侖,相當于 2500 多個奧運會級别的賽級泳池)。這個數字遠遠高于幾年前外部研究人員的統計,而背後的驅動力量自然就是 AI 建構的需求。

對此,加州大學河濱分校研究員 Shaolei Ren 表示,“可以合理推斷,(用水量)大部分增長要歸功于 AI”,包括“對生成式 AI 的大量投入以及同 OpenAI 公司的合作。”

谷歌報告稱用水量同比增長了 20%,Ren 認為這很大程度上也源自 AI 研究需求。當然,谷歌的用水量增長并不均勻——其俄勒岡州基礎設施的用水量保持穩定,但拉斯維加斯周邊地區的用量則翻了一番。愛荷華州同樣成為用水大戶,谷歌在這裡的康瑟爾布拉夫斯資料中心消耗的水資源比其他任何地方都要多。

在即将于今年晚些時候發表的論文中,Ren 研究團隊估計使用者每向 ChatGPT 提出 5-50 條提示詞或問題,ChatGPT 就會消耗掉 500 毫升的水(具體數字取決于基礎設施所在位置和季節氣候)。這一估算還未包含未經測量的間接用水,例如資料中心冷卻電力所對應的發電耗水。

Ren 表示,“大多數人并不清楚 ChatGPT 的資源消耗情況。但如果我們不了解資源用量,就沒辦法幫助節約資源。”

據了解,微軟于 2019 年向總部位于舊金山的 OpenAI 劃撥了首筆 10 億美元投資。随後,OpenAI 正式釋出了 ChatGPT。作為合作協定的一部分,微軟負責為 OpenAI 提供 AI 模型訓練所需要的算力。

為了踐行承諾,兩家公司紛紛将目光投向愛荷華州的西得梅因——十多年來,這座擁有 6.8 萬人口的市鎮一直是微軟的資料中心聚集地,負責為其雲計算服務提供支援。微軟的第四和第五處資料中心将于今年晚些時候在這裡開放。

據了解,一年中的大部分時間裡,愛荷華州當地的氣候都相當涼爽,微軟可以直接利用室外空氣來保持超級計算機正常運作,并将産生的熱量直接排放出去。該公司在一份披露報告中表示,隻有在溫度超過 29.3 攝氏度時,他們才需要切換為水冷模式。

但即便如此,當地設施在夏天的用水量仍然相當驚人。據西得梅因水廠介紹,2022 年 7 月,也就是 OpenAI 正式完成 GPT-4 訓練的前一個月,微軟向其愛荷華州資料中心叢集泵入約 1150 萬加侖的水,約占該地區總用水量的 6%。

2022 年,該水廠的一份檔案提到,除非微軟能夠“證明并落實能夠顯著降低峰值期用水量的技術”,否則該公司及當地政府将不再“考慮準許微軟未來的資料中心項目”。因為隻有這樣,他們才能保障當地住宅和其他商業營運的供水需求。

微軟表示,他們正與水廠直接合作以解決對方回報的問題。水廠方面則通過書面聲明指出,微軟一直是其良好合作夥伴,也始終在與當地官員合作,探讨如何在滿足需求的同時減少水資源消耗。

大模型的碳排放量有多少?

除了能源消耗,ChatGPT 這類 AI 大模型的碳排放量也曾引發大衆擔憂。此前曾有計算機科學家稱,GPT-3 整個訓練周期的碳排放量,相當于開車到月球再傳回地球;GPT-3 一輪訓練所消耗的電量,足以支撐丹麥 126 個普通家庭度過一整年。

做出這一猜測的專家來自丹麥哥本哈根大學,他們開發出名為 Carbontracker 的開源工具,用于預測 AI 算法的碳足迹。Carbontracker 估計,微軟資料中心内使用英偉達 GPU 建構的神經超級網絡運作功率約為 19 萬千瓦時,如果按照美國的平均碳排放水準計算,這将産生 8.5 萬公斤(85 噸)的二氧化碳,相當于 2017 年制造一輛新車所産生的排放量。這樣的排放量相當于車輛在歐洲行駛 80 萬公裡,基本相當于開車到月球再傳回地球的總行駛距離。

Carbontracker 的創造者之一、AI 電力消耗研究論文聯合作者 Lasse Wolff Anthony 認為,社群必須認真對待資源消耗問題。文章提到,從 2012 年到 2018 年之間,AI 研究的能源成本增長了約 30 萬倍。

Anthony 在采訪中表示,“二氧化碳估值是根據模型訓練期間,當地發電的平均碳排放量再加上運作模型的硬體總功耗所計算得出。”“我們通過多個 API 來跟蹤碳排放強度。如果模型訓練所在地區沒有 API 可用時,我們則會預設取歐洲平均值,因為目前還沒有免費開放的全球監測資料。這些 API 會在訓練期間定期查詢硬體能耗,以準确估算總體碳足迹。”

當然,上述結果的前提是假設訓練 GPT-3 的資料中心完全依賴于化石燃料,這跟實際情況可能有所出入。

有分析認為,目前大模型的碳排放量可能被嚴重誇大。事實上,全球科技行業占總體溫氣體排放量的比例僅為 1.8%-3.9%,而其中又隻有一小部分與 AI 相關。在規模層面,AI 的碳排放還遠無法與航空等其他主要碳源頭相提并論。相較于随時運作的汽車和飛機,訓練 GPT 這類模型所對應的碳排放量絕對稱不上主要沖突。

相較于随時運作的汽車和飛機,訓練 GPT 這類模型所對應的碳排放量絕對稱不上主要沖突。

誠然,目前我們并不清楚到底有多少大 AI 模型正在訓練當中,但如果隻考慮 GPT-3 或其他規模更大的模型,那麼此類模型成果總計還不到 1000 個。這裡我們可以做個簡單計算:

最近一項評估認為,訓練 GPT-3 排放了 500 噸二氧化碳,Meta 的 Llama 模型則估計排放 173 噸。如果訓練 1000 個這樣的模型,那麼總二氧化碳排放量約為 50 萬噸。2019 年,商業航空業排放了約 9.2 億噸二氧化碳,幾乎是大語言模型訓練的 2000 倍。而且要注意,這是一年的航空業營運對比多年來的大語言模型訓練。雖然後者的環境影響值得關注,但過度誇大明顯有違客觀公平,需要更細緻地斟酌考量。

當然,這裡讨論的還隻是模型訓練階段。模型的運作和使用同樣要消耗電力并産生相關排放。根據一項分析,ChatGPT 運作一年可能會排放約 1.5 萬噸二氧化碳。但另一項分析結果則樂觀得多,認為約在 1400 噸左右。但無論取哪個數字,雖然沒有低到忽略不計的程度,但與航空業相比仍有幾個數量級的差距。

需要強調的是,問題的重點并不在于探索 GPT-3 這類大模型的碳足迹,而是希望引起人們對于訓練先進神經網絡所消耗的巨量資源的關注。

目前,不少企業已開始重視能源消耗和環境污染問題,并在制定相應解決方案。微軟在一份聲明中稱,正在資助研究以測量 AI 開發所對應的能耗和碳足迹,“同時緻力于提升大語言模型系統的訓練和應用效率。”

微軟表示,“我們将繼續監測自身排放、加快進展,同時更多使用清潔能源為資料中心供電、采購可再生能源,借此實作到 2030 年的碳負排放、水資源正循環和零浪費的可持續發展目标。”

OpenAI 也回應了這些評論,稱正“認真考慮”如何更好地運用寶貴算力。“我們意識到訓練大模型可能會消耗電力和水資源”,是以正在努力提高效率。”

需要建立透明的排放制度

随着 AI 系統的不斷開發和應用,我們的确需要關注它對環境的影響。除了傳統上行之有效的實踐之外,我們還應探索出特定于生成式 AI 的減排思路。

首先,透明排放将至關重要。有了這種透明度保障,我們才能監控與 AI 模型訓練和使用相關的碳排放量,確定模型部署者和最終使用者能夠根據這些數字制定 AI 使用政策。此外,還應将 AI 相關排放納入溫室氣體清單與淨零目标,将此作為 AI 整體透明制度的組成部分。

法國最近就通過一項法律,要求電信企業送出關于其可持續發展的透明度報告。類似法律未來可能要求采用 AI 技術的産品向客戶報告其碳排放量,并要求模型提供商通過 API 開放碳排放資料。

更高的透明度将會帶來更強有力的激勵措施,借此建立起愈發節能的生成式 AI 系統,同時探索新的效率提升途徑。InfoQ 最近發表的一篇文章提到,微軟進階軟體工程師 Sara Bergman 呼籲人們關注 AI 系統的整個生命周期,并建議采用綠色軟體基金會提出的工具和實踐以改善 AI 系統的能源效率。具體條款包括認真考量伺服器硬體與架構選擇、關注時間/區域間的發電排碳量差異等。更重要的是,生成式 AI 本身也有望在提高能效當中做出獨特的貢獻。

參考連結:

https://apnews.com/article/chatgpt-gpt4-iowa-ai-water-consumption-microsoft-f551fde98083d17a7e8d904f8be822c4

https://www.infoq.com/articles/carbon-emissions-generative-ai/

https://www.theregister.com/2020/11/04/gpt3_carbon_footprint_estimate/

本文轉載來源:

https://www.infoq.cn/news/NuKxISZRb5sjg1lXgmeN

繼續閱讀