天天看點

深度學習模型并非“越大越好”,它可能引起氣候變化問題

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

深度學習模型并非“越大越好”,它可能引起氣候變化問題

和當今的深度學習方法相比,我們大腦的效率高得不可思議。它們隻有幾磅重,大概隻需要20瓦左右的能量消耗,這個能耗隻能夠給昏暗的燈泡供電。然而,它們代表了已知宇宙中最強大的智力形式。

本月早些時候,OpenAI宣布已經建成史上最大的人工智能模型,該模型規模驚人,被命名為“GPT-3”,是一項令人印象深刻的技術成就。然而,它卻凸顯了人工智能領域的一個隐患。

現代人工智能模型需要消耗大量能量,并且這些能量需求正以驚人的速度增長。在深度學習時代,産生一流的人工智能模型所需的計算資源,平均每3.4個月翻一番;這意味着,能量需求在2012年至2018年之間增加了300,000倍。而“GPT-3”隻是這種指數級增長軌迹上的一個最新節點。

深度學習模型真的越大越好嗎?

在今天,人工智能的碳足迹是有意義的,而如果這個行業趨勢繼續下去,情況将很快變得糟糕得多。除非我們願意重新評估并改革當今的人工智能研究方向,否則,人工智能領域可能會成為我們在未來幾年中應對氣候變化的對手。

GPT-3很好地說明了這種現象。該模型包含多達1750億個參數。如何了解這個數字呢?不妨參考一下它的前身模型GPT-2,它在去年釋出時被認為是最先進的,GPT-2隻有15億個參數。去年GPT-2的訓練耗費了數十千兆次/天,這個計算輸入的數量已經非常龐大了,而GPT-3需要的數量可能是GPT-2的好幾千倍。

依靠越來越大的模型,來推動人工智能技術進步,這種做法的問題在于,建構和部署這些模型需要大量的能源消耗,并是以産生碳排放。

在2019年一項被廣泛讨論的研究《Energy and Policy Considerations for Deep Learning in NLP(NLP深度學習的能源和政策考慮)》中,由Emma Strubell上司的一組研究人員,評估了訓練單個深度學習模型的能量消耗,這個數值可能高達626,155磅的二氧化碳排放量——約相當于五輛汽車在整個生命周期内的碳足迹。相比之下,一個普通的美國人每年産生的二氧化碳排放量大約是36,156磅。

可以肯定的是,這項評估針對的是能耗特别高的模型。如今,訓練一個普通規模的機器學習模型産生的碳排放量應該遠遠小于626,155磅。

同時值得注意的是,在進行這項分析時,GPT-2是當時可供研究的、最大的模型,研究人員将其視為模型大小的上限。可僅僅一年之後,GPT-2看上去很袖珍了,比它的後繼産品小了一百倍。

那麼,機器學習模型到底為什麼會需要消耗這麼多的能量呢?

第一個原因是,用于訓練這些模型的資料集的大小在不斷地膨脹。在2018年,BERT模型在使用了30億個單詞的資料集進行訓練之後,實作了同類中最佳的NLP(自然語言處理)性能。XLNet使用了320億個單詞的資料集進行訓練,并且在性能上超過了BERT。不久之後,GPT-2接受了400億個單詞的資料集的訓練。而讓之前所有此類工作都相形見绌的是,GPT-3将使用一個包含5,000億個單詞的權重資料集進行訓練。

在訓練過程中,神經網絡會針對輸入的每條資料,執行一整套冗長的數學運算(既包括正向傳播,也包括反向傳播),并且以複雜的方式更新其參數。是以,更大的資料集,就會轉化為飛速增長的計算和能源需求。

導緻人工智能巨大能量消耗的另一個原因是,開發模型所需要進行的大量實驗和調校。今天的機器學習,在很大程度上仍然是反複試錯的練習。從業人員通常會在訓練過程中針對給定模型建構數百個不同的版本,在确定最佳設計之前,他們會嘗試不同的神經體系架構和超參數。

上述提到的那篇2019年研究論文中,描述了一個案例研究。研究人員們選擇了一個平均規模的模型——比GPT-3之類的博人眼球的龐然大物要小得多,并且不僅檢查了訓練最終版本所需的能量,還測量了為了生産這個最終版本進行的各種測試的總體能量消耗。

在六個月的過程之中,他們教育訓練了4,789個不同版本的模型,總共需要花費9,998天的GPU時間(超過27年)。考慮到所有這些因素,這些研究人員估計,建構該模型總計要産生78,000磅的二氧化碳排放量,超過一個普通美國成年人兩年的碳排放量。

到此為止,這次讨論還僅僅涉及了機器學習模型的訓練環節。但是訓練隻是一個模型生命周期的起點。模型訓練完成之後,就會在現實世界中得到應用。

部署人工智能模型,讓它們在現實環境中采取行動——這個過程被稱為推理,該過程的能耗比訓練環節更高。實際上,英偉達公司(Nvidia)估計,神經網絡80%至90%的能量消耗出現在推理環節,而不是訓練環節。

例如,想想自動駕駛汽車中的人工智能。首先必須要對神經網絡進行教育訓練,讓它學會駕駛。在訓練完成并部署到自動駕駛汽車上之後,模型會不斷地進行推理,才能在環境中行駛,隻要汽車還在使用之中,這個過程就會日複一日地持續下去。

毋庸置疑,模型具有的參數越多,對這種持續不斷的推理的能量需求就越高。

能源使用和碳排放

既然提到了人工智能能量消耗和碳排放之間的關系。那麼思考這種關系的最好方式是什麼呢?

EPA資料顯示,在美國,一千瓦時的能耗平均會産生0.954磅的二氧化碳排放量。這個平均值,反應了美國能源網中不同能量來源(例如可再生能源、核能、天然氣、煤炭)的相對比例和碳足迹的變化。

上述提到的那篇2019年研究分析,采用了全美國的平均值,以便根據各種人工智能模型的能量需求來計算碳排放量。這是一個比較合理的假設。例如,亞馬遜網絡服務公司(Amazon Web Services)的電力來源組合,大緻反應了美國整體的電力來源,而且絕大多數的人工智能模型都是在雲端進行訓練的。

當然,如果使用主要由可再生能源産生的電力訓練人工智能模型,那麼碳足迹也會相應地降低。例如,與AWS相比,谷歌雲平台(Google Cloud Platform)使用的電力結構在可再生能源方面的比重更大。(上述那篇2019年研究論文顯示,兩家公司的這一比例分别為56%和17%。)

或者,舉另一個例子,如果在太平洋西北部的硬體上訓練一個模型,所産生的碳排放量會低于其他國家,這是因為這一地區擁有豐富的清潔水源。而在這方面,每一家雲服務提供商都在鼓吹自己在碳補償方面的投資。

總體而言,使用美國總體能源平均值,應該可以大緻準确地估算出人工智能模型的碳足迹。

效益遞減

通過不斷變大的模型,追求人工智能進步的做法,凸顯了模型規模和模型性能之間的關系。下列資料顯示得很清楚:模型規模的增加,最終會導緻性能回報的急劇下降。

比如,ResNet是2015年釋出的一個著名計算機視覺模型。該模型的改進版本稱為ResNeXt,于2017年問世。與ResNet相比,ResNeXt所需的計算資源要多35%(以總浮點運算來衡量),準确度卻隻提高了0.5%。

艾倫人工智能研究所(Allen AI Institute)2019年的一篇論文提供了詳細的資料,記錄了不同任務、模型和人工智能子領域中的效益遞減問題。與GPT-2相比,最新釋出的大型模型GPT-3出現了明顯的效益遞減迹象。

如果人工智能社群仍然繼續沿着目前的研究方向前進,就會不斷的建構越來越大的模型,耗費越來越多的能源,以實作越來越小的性能提升。任何成本/收益分析都會變得越來越比例失調。

既然存在效益遞減的問題,又是什麼在推動着模型不斷地朝着越來越大的方向發展呢?一個主要的原因是,目前人工智能社群對擷取“最好的”性能基準測試結果非常關注。建構一個新模型,能夠在性能基準測試中創下新的準确性記錄,即便成績提升僅僅是微不足道的一點,也可以赢得研究人員的認可和好評。

正如加州大學洛杉矶分校(UCLA)的教授Guy Van den Broeck所說:“我認為對這種情況的一個最好的比喻,就是某個富油的國家能夠建造一座很高的摩天大樓。當然,建造這樣的東西需要花很多錢,還有很多的工程工作。你也确實可以在建造這座高樓的時候,獲得‘最先進的技術’。但是……這件事在本質上并沒有什麼科學上的進步。”

在目前的人工智能研究領域,占據主導地位的“越大越好”思路,可能會在未來幾年對環境造成重大的破壞。需要在這個領域内進行思慮周詳但又大膽的變革,讓人工智能技術的發展變得更加可持續,并更具生産力。

展望未來

首先,每一位人工智能從業人員都應該考慮,如何在短期内“快速制勝”,以減輕其研究對碳足迹的影響。

重要的第一步是,提高這個問題的透明度和度量程度。當人工智能研究人員們釋出新模型的結果時,除了性能和準确性名額之外,他們還應該公布在模型開發中消耗了多少能量的資料。

經過深入徹底的分析,艾倫人工智能研究所的團隊建議,将「浮點運算」作為研究人員追蹤的最通用、也是最有效的能效度量标準。另一組研究人員建立了一個機器學習排放電腦,從業人員可以使用這個電腦來評估他們建構的模型的碳足迹(根據硬體、雲服務提供商和地理區域等因素)。

遵循這些思路,綜合考慮能源成本和性能收益的做法,将成為研究人員們在訓練模型時的最佳實踐。明确地量化這種關系,将促使研究人員在面對效益遞減問題時,對資源配置設定做出更明智、更平衡的決定。

随着可持續人工智能實踐的擴散,希望人工智能社群能夠在評估人工智能研究的時候,開始考慮這些效率名額,就像今天我們對傳統性能名額(例如準确性)采取的做法一樣:在會議論文送出、演講、學術角色中考慮它們。

還有一些已經相對比較成熟的方法,能夠幫助人工智能技術在近期減少碳足迹:使用更有效的超參數搜尋方法、減少訓練過程中不必要的實驗次數、使用更高能效的硬體等。

但是,單靠這些補救措施并不足以解決這個問題。人工智能領域需要更根本的長期轉變。

我們需要退後一步,并且承認,僅僅依靠建立越來越大的神經網絡并非通往通用智能的正确途徑。我們需要推動自己去發現更優雅、更有效的方法,來對機器中的智能進行模組化。我們正在持續不斷地同氣候變化進行鬥争,這是一場關乎地球未來的戰争。

在此引用人工智能傳奇人物、深度學習教父Geoff Hinton的話:“未來取決于那些‘對我所說的一切’都深表懷疑的研究所學生……我的觀點是将其全部抛棄并重新開始。”

人工智能社群必須開始緻力于開創人工智能的新範例,這些範例應該既不需要指數級增長的資料集,也不需要龐大的能源消耗。小樣本學習(few-shot learning)等新興研究領域,都是有前途的途徑。

人類的大腦——智力的原始來源提供了重要的啟發。和當今的深度學習方法相比,我們大腦的效率高得不可思議。它們隻有幾磅重,大概隻需要20瓦左右的能量消耗,這個能耗隻能夠給昏暗的燈泡供電。然而,它們代表了已知宇宙中最強大的智力形式。

人工智能研究人員Siva Reddy指出:“人類的大腦用很少的能量消耗,就能夠完成令人驚歎的事情。問題是我們如何建造出這樣的機器來。”

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/zhibo

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-06-22

本文作者:我愛至尊寶

本文來自:“

人工智能學家 微信公衆号

”,了解相關資訊可以關注“[人工智能學家](

https://mp.weixin.qq.com/s/Aq66i3ZW52hds_h_cTtcDg

繼續閱讀