天天看點

Bow IPU+超級智能——Graphcore邁向未來AI的關鍵

中原標準時間3月3日,Graphcore釋出了第三代IPU系統Bow系列和新一代IPU,後者采用7納米制程工藝,是全球首款基于台積電的3D Wafer-on-Wafer技術的處理器,性能較上一代提升40%,電源效率提升16%,使用者無需修改代碼即可接入使用新系統,新産品價格較上一代保持不變(Graphcore為訂購IPU-M2000的老使用者提供了優惠方案,以確定其可以獲得相似的性能/美元)。“3D Wafer-on-Wafer的晶片測試已經進行了一年多的時間,這得益于我們與技術夥伴的緊密協作,同時,他們也需要在AI處理器上共同推進新技術的落地。”Graphcore大中華區總裁兼全球首席營收官盧濤在接受采訪時談到。

Bow IPU+超級智能——Graphcore邁向未來AI的關鍵

Graphcore大中華區總裁兼全球首席營收官盧濤

采用3D封裝技術的Bow IPU在單個封裝中容納了超過600億個半導體,在供電裸片中添加了深溝槽電容器,位于處理核心和存儲旁,提供了高效供電,實作350 TeraFLOPS的AI計算,優化了矽供電。Bow IPU中的Wafer-on-Wafer能夠在矽片之間提供更高的帶寬,優化電源效率,在晶圓級别提升Colossus架構的功率。通過把兩個晶圓結合在一起,産生一個新的3D裸片,其中一個晶圓用于AI處理,在架構上與GC200 IPU處理器相容,擁有1472個獨立的IPU-Core tile,能夠運作8832個并行程式,具有900MB的處理器記憶體儲,吞吐量從47.5TB/s提高到65TB/s,10個IPU-Links可提供320GB/s,第二個晶圓擁有供電裸片。盧濤稱:“通過與台積電緊密合作,我們充分驗證了整套技術,包括背面矽通孔(BTSV)和Wafer-on-Wafer(WoW)混合鍵合中的多項突破性技術。”

Bow IPU+超級智能——Graphcore邁向未來AI的關鍵

Bow IPU處理器

作為Bow Pod系統的組成部分,最新Bow-2000 IPU Machine采用了與第二代IPU-M2000 machine同樣的系統架構,但配備了四個Bow IPU處理器,可提供1.4 PetaFLOPS的AI計算。Bow-2000與IPU-M2000同樣使用1U刀片,具有3.6 GB的處理器記憶體儲,吞吐量為260TB/s,IPU流存儲達到256 GB,具有2.8 Tbps IPU-Fabric。Bow-2000可以相容之前的IPU-POD系統,其高速、低延遲時間的IPU結構和靈活的1U外形尺寸保持不變。Bow-2000是整個Bow Pod系列的基礎組成部分,可安裝在戴爾、Atos、Supermicro和浪潮等品牌的主機伺服器上,組成Bow Pod系統。

Bow IPU+超級智能——Graphcore邁向未來AI的關鍵

Bow-2000 IPU系統

Bow Pod系列包括Bow Pod16(4台Bow-2000和一台主機伺服器)、Bow Pod32(8台Bow-2000和一台主機伺服器)、Bow Pod64以及更大的旗艦系統Bow Pod256和Bow Pod1024。其中,Bow Pod16能提供5.6 PetaFLOPS的算力,向上縱向擴充到Bow Pod32、Bow Pod64,再以Bow Pod64作為橫向擴充單元,擴充到Bow Pod256、Bow Pod1024等。旗艦産品Bow Pod256可以提供超過89 PetaFLOPS的AI算力,超大規模Bow Pod1024(目前處于早期通路版本)可提供358.4 PetaFLOPS的AI算力。橫向擴充方面,如果以IPU-POD16的性能作為基準,Bow Pod16的性能有1.4倍,Bow Pod256有18倍。

Bow IPU+超級智能——Graphcore邁向未來AI的關鍵

Graphcore中國工程副總裁、AI算法科學家金琛

Bow IPU+超級智能——Graphcore邁向未來AI的關鍵

第三代IPU系統Bow系列

“這些性能的提升在很大程度上也歸功于軟體棧的生态系統。”Graphcore中國工程副總裁、AI算法科學家金琛表示,“核心的部分就是Poplar SDK,包括驅動器、編譯器等等。在此基礎之上,Graphcore還有着豐富的生态,例如支援PyTorch、TensorFlow、HALO、PaddlePaddle、Keras等架構和庫,并且支援Jupyter Notebook、Inference Deployment Toolkit等。面向開發者社群,我們提供了廣泛的代碼用例,以及各種文檔、視訊的示範。例如在機器學習的應用上提供了豐富的模型範例,覆寫圖像識别、檢測、語音等AI領域,這些範例還在持續增加。在雲上,我們也提供了廣泛的部署、監控、管理、內建等功能。還有PopVision工具,可以幫助使用者和Poplar程式設計者更有效地提升應用在我們的平台上的性能優化。”

Bow IPU+超級智能——Graphcore邁向未來AI的關鍵

Poplar SDK

在各類AI應用的真實環境中,在與配有Bow Pod系統的Mk2 IPU-Pod系統相同的峰值功率範圍内,各類AI應用的性能提升可達到40%,包括圖像分類、檢測、文本到圖像等,覆寫CNN、Transformer等網絡。對于計算機視覺模型EfficientNet,在EfficientNet-B4上的性能提升達到39%,Bow Pod16性能是同類Nvidia DGX A100系統的5倍左右,神經網絡模型訓練大概隻需要14個小時,而價格隻有一半,相當于TCO優勢提升10倍。實際表現中,Bow系統的性能和上一代産品相比也有較大的提升,在Conformer模型上,有着36%的提升,在ASR的模型和TextToSpeech(文本轉語音)的模型上,有着約39%的提升。在較大幅度性能提升的基礎之上,Graphcore還保證了整體性能的有效性,相關的模型可以達到接近96%的電源效率。

Bow IPU+超級智能——Graphcore邁向未來AI的關鍵

Bow在實際場景中的應用表現

Bow IPU+超級智能——Graphcore邁向未來AI的關鍵

Bow Pod可為各種AI應用提供更好的性能表現

盧濤稱,人類大腦裡面約有860億個神經元、100萬億個突觸。如果将突觸類比AI模型的參數個數,那麼目前最大的AI模型約有1.6萬億個參數,距離人腦還有100倍的差距。為了邁向未來AI,Graphcore正在開發一款可以用來超越人腦處理的超級智能機器——Good Computer(古德計算機),預計在2024年傳遞。這款機器會搭載新一代IPU技術,帶來超過10 Exa-Flops的AI浮點計算、最高4PB的存儲、帶寬超過10PB/秒,支援超過500萬億參數的AI模型,獲得Poplar SDK的完全支援,并且會延續3D Wafer-on-Wafer邏輯棧。價格方面,該計算機預計在100萬美元至1.5億美元(取決于配置)。

Bow IPU+超級智能——Graphcore邁向未來AI的關鍵

Good Computer(古德計算機)

目前,Bow IPU已經獲得了不少客戶的部署和認可,例如美國的一所國家實驗室就利用其進行了基于Transformer模型和圖神經網絡的實踐,主要應用場景為化學研究、網絡安全等。此外,Graphcore在醫療健康、保險、雲計算、氣象、分子動力學、網際網路等行業的客戶也在加速落地。在中國市場,已經有客戶拿到了Bow系統,計劃展開測試和部署應用。針對該系統的模型性能優化等軟體開發工作,也是由Graphcore的中國團隊完成的。

Bow IPU+超級智能——Graphcore邁向未來AI的關鍵

Graphcore的客戶遍及各行各業

随着企業的數字化轉型步入深水區,愈發多元化、複雜化的工作負載催生了異構計算的黃金時期,IPU能夠在一衆XPU中殺出重圍,除了有着領先的工藝設計和架構優勢、完善的軟體棧,還有能夠讓其大展拳腳的模型執行個體和應用場景。以Transformer為例,CV、語音等越來越多的垂直應用轉向Transformer,對網絡訓練的深度和精度提出了更高的要求。而早在2020年,Graphcore就觀察到了這一趨勢,并為此進行了大量的技術研發,IPU的架構設計與之也較為适應,例如在訓練方面的表現不輸于NVIDIA的系統,在推理方面的表現則要更好。

“起初,IPU并沒有針對某個具體的模型來設計,原因是我們認為AI計算在底層都是以計算圖來組織的,是以要看怎樣的計算架構适合相應的應用。像是在Transformer場景中,IPU的優勢就比較大。”盧濤表示,“如今,AI領域呈現着X×Y×Z的關系,即X是應用,Y是架構,Z是處理器,X×Y×Z的可能性會有很多。如果有一套主線出來之後,對于晶片廠商仍會有廣闊的空間,但大體上都是沿着一條主幹道在發展,這樣對于客戶、開發者都是有好處的。”

(7881494)

繼續閱讀