Meta 不僅是全球最大的社交網絡公司,和當下最熱門技術概念“元宇宙”的推行者。它同時也是人工智能(AI)研究的全球頂級公司之一。
該公司在 AI 方面卓越研究成果的背後,必然有強大的算力支援。不過一直以來,Facebook 從未對外界公開展示過其算力究竟有多厲害。
而在今天,Meta 公司突然對外宣布了其在打造 AI 超級計算機方面的最新進展。
根據 Meta 此次公開透露的結果,其打造的超級計算機 AI RSC,目前算力在全球應該已經排到了前四的水準。
這個情況已經足以令人非常震驚。畢竟,在算力方面能夠和 RSC 相提并論的其它超級計算機,均由中國、美國、日本的國有研究機構運作——而 RSC 是前五裡唯來自于私營機構的超算系統。
這還沒完:這台超級計算機,還在以驚人的速度,變得更快、更強。
Meta 預測,到今年7月,也即半年之内,RSC 的算力将實作2.5倍的增長。另據專業機構 HPCwire 估計,Meta 的 RSC 超級計算機,其運作 Linpack benchmark 的算力将有望達到220 PFlops。
如無意外,RSC 将成為名副其實的“全球最快 AI 超級計算機”。

AI RSC 内部,圖檔來源:Meta
|AI 研發進入“超算”時代
首先需要回答一個問題:
什麼樣的 AI 研究,需要如此強大的超級計算機?
一般的模型,或許可以在一般的電腦或普通的資料中心裡,用一塊或是幾塊顯示卡就可以完成訓練。而 Meta 正在研究的,是比目前的模型參數量要大得多,性能要求更高、更嚴格,訓練花費時間更久的——超大模型。
以識别有害内容為例:CV 算法需要能夠以更高的采樣率,處理更大、更長的視訊;語音識别算法需要在極大噪音的複雜背景下達到更高的識别準确度;NLP 模型要能夠同時了解多種語言、方言和口音,等等……
在過去,許多算法在跑分資料集上都得到了不錯的成績。然而,Meta 是一家幾大洲十億級别使用者量的公司,它必須確定同一個模型投放到生産環境中能夠最大限度保證普适性。是以,一般模型不夠用了,現在要訓練大模型。
訓練大模型,需要大算力——問任何一個從事大模型研究的人,你都會得到這樣的答案。畢竟過去的訓練任務用幾周能夠完成,可在今後,面對新的大模型,我們可等不起幾年……
“在今天,包括識别有害内容等在内的許多重要的工作,都對于超大模型産生了極大的需要,”Meta 在其新聞稿中寫道,“而高性能計算系統是訓練這些超大模型的重要元件。”
Meta 此次釋出的超級計算機 AI RSC,全稱為 AI Research SuperCluster(人工智能研究超級計算叢集)。
雖然 Meta 在今天首次公開宣布推出這一系統,實際上 RSC 的前身版本最早在2017年就已經在 Facebook 公司内部投入生産使用了。當時,Facebook 團隊采用了2.2萬張英偉達 V100 Tensor GPU 組成了首個單一叢集。該系統每天可以運作大約3.5萬個訓練任務。
據 HPCwire 預計,這個基于 V100 GPU 的前身版本,按照 Linpack benchmark 的浮點計算性能應該已經達到了135 PFlops。這個水準在全球超算排行榜 Top500 的2021年11月排名中,已經足以排到第三名了,也即其算力可能已經超越了美國能源部在加州 Livermore 運作的“山脊”(Sierra) 超級計算機。
不過,對于 Meta 來說,這還遠遠不夠。他們想要的,是世界上最大、最快、最強的 AI 超級計算機。
這台超算還必須要達到生産環境的資料安全級别,畢竟在未來,Meta 的生産系統所用的模型可能直接在它上面訓練甚至運作。
并且,這台超算還需要為使用者——Meta 公司的 AI 研究員——提供不亞于一般訓練機/顯示卡的使用便利性,和流暢的開發者體驗。
Meta AI RSC 技術項目經理 Kevin Lee 圖檔來源:Meta
2020年初,Facebook 團隊認為當時公司的超算叢集難以跟上未來大模型訓練的需要,決定“重新出發”,采用最頂尖的 GPU 和資料傳輸網絡技術,打造一個全新的叢集。
這台新的超算,必須能夠在大小以 EB(超過10億GB)為機關的資料集上,訓練具有超過萬億參數量的超大神經網絡模型。
(例如,中國科研機構智源 BAAI 開發的“悟道”,以及谷歌去年用 Switch Transformer 技術訓練的混合專家系統模型,都是參數量達到萬億級别的大模型;相比來看,此前在業界非常著名的 OpenAI GPT-3 語言模型,性能和泛用性已經非常令人驚訝,參數量為1750億左右。)
Meta 團隊選擇了三家在 AI 計算和資料中心元件方面最知名的公司:英偉達、Penguin Computing,和 Pure Storage。
具體來說,Meta 直接從英偉達采購了760台 DGX 通用訓練系統。這些系統包含共計6080塊 Ampere 架構 Tesla A100 Tensor 核心 GPU,在當時,乃至今天,都是最頂級的 AI 訓練、推理、分析三合一系統。中間的網絡通信則采用了英偉達 InfiniBand,資料傳輸速度高達200GB每秒。
存儲方面,Meta 從 Pure Storage 采購了共計 231PB 的閃存陣列、子產品和緩存容量;而所有的機架搭建、裝置安裝和資料中心的後續管理工作,則由從 Facebook 時代就在服務該公司的 Penguin Computing 負責。
這樣組建出來的新超算叢集,Meta 将其正式命名為 AI RSC:
圖中顯示的是 RSC 第一階段(P1)的參數細節。圖檔來源:Meta
相較于之前 FAIR 采用 V100 顯示卡搭建的計算叢集,初代 RSC 對于生産級别的計算機視覺類算法帶來了20倍的性能提升,運作英偉達多卡通訊架構的速度提升了超過9倍,對于大規模自然語言處理類 workflow 的訓練速度也提升了3倍——節約的訓練時間以周為機關。
值得一提的是,在 Meta 剛剛做好 RSC 更新計劃的時候,新冠疫情突然襲來了。所有實體建造的工期都遇到了極大的不确定性,RSC 能否成功更新換代,打上了一個巨大的問号。
然而,公司業務發展和 AI 科研的需要,無法等待新冠疫情。負責 RSC 更新和建造的團隊,以及包括英偉達、Penguin Computing、Pure Storage 等三家矽谷公司在内的技術合作方,不得不在極大的工期壓力下,完成資料中心的裝修建設、裝置的生産和運輸、現場裝機、布線、調試等一系列非常繁瑣和技術要求極高的工作。
更誇張的是由于當時全美各地都有居家隔離令,整個 RSC 項目團隊的多位負責人,都不得不在家中遠端工作……團隊裡的研究員 Shubho Sengupta 表示,“最讓我感到驕傲的是,我們在完全遠端辦公的條件下完成了(RSC 的更新工作)。考慮到項目的複雜性,完全沒有和其它團隊成員見面就能把這些事都辦了,簡直太瘋狂了”
就目前來看,RSC 已經是世界上運作速度最快的 AI 超級計算機之一了。
但是 Meta 仍不滿足。
|打造全球最快、最安全的 AI 超算
為了滿足 Meta 在生産環境和 AI 研究這兩大方面日益增長的算力需求,RSC 必須持續更新擴容。
按照 Meta 的 RSC 第二階段(P2)計劃,到今年7月,也即半年之内,整個計算叢集的 A100 GPU 總數提升到驚人的1.6萬塊……
初代 RSC 采用的 DGX A100 單機數量是760台,折合6,080張顯示卡——這樣計算的話,也就是說 RSC 将在 P2 再增加9,920張顯示卡,即 Meta 需要再從英偉達采購1,240台 DGX A100 超級計算機……
就連英偉達也表示,Meta 的計劃,将讓 RSC 成為英偉達 DGX A100 截至目前最大的客戶部署叢集,沒有之一。
算力提升了,其它配套設施,包括存儲和網絡,也要跟上。
按照 Meta 的預計,RSC 的 P2 完成後,其資料存儲總量将達到1 EB——折合超過10億 GB。
不僅如此,整個超算叢集的單個節點之間的通訊帶寬也獲得了史無前例般的提升,達到驚人的16TB/s,并且實作一比一過載(也即每個 DGX A100 計算節點對應一個網絡接口,不出現多節點共享接口争搶帶寬資源的情況)
(這裡還有個點值得單獨提一下:按照 Meta 團隊的估計,像 RSC 這樣采用 DGX A100 節點組建超算叢集的做法,能夠支援的節點上限也就是1.6萬了,再多就會出現過載,意味着追加投資的邊際收益顯著降低。)
在資料安全的角度,Meta 這次也沒有忘了在新聞稿中專門介紹其資料處理方式,以求令公衆安心。
“無論是檢測有害内容,還是創造新的增強現實體驗——為了打造新的 AI 模型,我們都會用到來自公司生産系統,取自真實世界的資料,”Meta 表示,這也是為什麼RSC 從設計之初就加入了資料隐私和資料安全方面的考慮。隻有這樣,Meta 的研究院才能夠安全地使用加密、匿名化後的真實世界資料來訓練模型。
1)RSC 被設計為無法和真正的網際網路直接連接配接,而是和位于 RSC 所在地附近的一座 Meta 資料中心進行連接配接;
2)當 Meta 的研究人員向 RSC 的伺服器導入資料的時候,這些資料首先要通過一道隐私審查系統,确認資料已經進行了匿名化;
3)在資料正式投入到 AI 模型算法的訓練之前,資料也會再次進行加密,并且密鑰是周期生成和抛棄的,這樣即使有舊的訓練資料存儲,也無法被通路;
4)資料隻會在訓練系統的記憶體中解密,這樣即使有不速之客闖入 RSC,對伺服器進行實體通路,也無法破解資料。
可能是出于保密的目的,Meta 甚至連 RSC 的具體所在地都沒有透露……
不過根據已知的情況,RSC 的附近必有一座 Facebook/Meta 資料中心存在。并且,下圖截取自 RSC 的公告視訊,圖中我們可以看到,AI RSC 位于右上,左下則是 Meta 的一座資料中心。圖中有着大量較高的樹木。
矽星人基本可以确定,上圖中的 Meta 資料中心位于美國弗吉尼亞州 Henrico 縣。該縣是美國東部最大的資料中心集中地,也是連接配接歐洲、南美、亞洲、非洲的多條海底光纜在美國的末端所在地。至于 RSC 的實際所在地,其前身應該是 QTS Richmond 資料中心。
右邊為 Meta 資料中心,左邊為 QTS Richmond 也即 Meta AI RSC 所在地 截自 Google Maps
最後,讓我們來看看成本……
不考慮同樣極其昂貴的存儲和網絡基礎設施,我們就先隻看計算的部分:
每台 DGX A100 的标準售價為19.9萬美元,Meta 大宗采購肯定有折扣,但假設沒有折扣的話:RSC 這次 P2 的擴容成本,僅顯示卡采購的部分,就高達2.5億美元……)
當然,按照今天的 Meta 市值來看,這筆費用簡直是九牛一毛。假若真的打造出全世界最大最強最快的 AI 超算,對于這家公司的業務,無論是其現在的核心業務,還是未來的元宇宙産品,預計都能夠帶來非常大的幫助。
Meta 是這麼說的:“最終,我們在 RSC 上面的努力,将能夠為作為下一個關鍵計算平台的元宇宙鋪就道路。屆時,AI 驅動的應用和産品将會扮演重要的角色。”