Bow IPU＋超級智能——Graphcore邁向未來AI的關鍵

中原標準時間3月3日，Graphcore釋出了第三代IPU系統Bow系列和新一代IPU，後者采用7納米制程工藝，是全球首款基于台積電的3D Wafer-on-Wafer技術的處理器，性能較上一代提升40%，電源效率提升16%，使用者無需修改代碼即可接入使用新系統，新産品價格較上一代保持不變（Graphcore為訂購IPU-M2000的老使用者提供了優惠方案，以確定其可以獲得相似的性能/美元）。“3D Wafer-on-Wafer的晶片測試已經進行了一年多的時間，這得益于我們與技術夥伴的緊密協作，同時，他們也需要在AI處理器上共同推進新技術的落地。”Graphcore大中華區總裁兼全球首席營收官盧濤在接受采訪時談到。

Graphcore大中華區總裁兼全球首席營收官盧濤

采用3D封裝技術的Bow IPU在單個封裝中容納了超過600億個半導體，在供電裸片中添加了深溝槽電容器，位于處理核心和存儲旁，提供了高效供電，實作350 TeraFLOPS的AI計算，優化了矽供電。Bow IPU中的Wafer-on-Wafer能夠在矽片之間提供更高的帶寬，優化電源效率，在晶圓級别提升Colossus架構的功率。通過把兩個晶圓結合在一起，産生一個新的3D裸片，其中一個晶圓用于AI處理，在架構上與GC200 IPU處理器相容，擁有1472個獨立的IPU-Core tile，能夠運作8832個并行程式，具有900MB的處理器記憶體儲，吞吐量從47.5TB/s提高到65TB/s，10個IPU-Links可提供320GB/s，第二個晶圓擁有供電裸片。盧濤稱：“通過與台積電緊密合作，我們充分驗證了整套技術，包括背面矽通孔（BTSV）和Wafer-on-Wafer（WoW）混合鍵合中的多項突破性技術。”

Bow IPU處理器

作為Bow Pod系統的組成部分，最新Bow-2000 IPU Machine采用了與第二代IPU-M2000 machine同樣的系統架構，但配備了四個Bow IPU處理器，可提供1.4 PetaFLOPS的AI計算。Bow-2000與IPU-M2000同樣使用1U刀片，具有3.6 GB的處理器記憶體儲，吞吐量為260TB/s，IPU流存儲達到256 GB，具有2.8 Tbps IPU-Fabric。Bow-2000可以相容之前的IPU-POD系統，其高速、低延遲時間的IPU結構和靈活的1U外形尺寸保持不變。Bow-2000是整個Bow Pod系列的基礎組成部分，可安裝在戴爾、Atos、Supermicro和浪潮等品牌的主機伺服器上，組成Bow Pod系統。

Bow-2000 IPU系統

Bow Pod系列包括Bow Pod16（4台Bow-2000和一台主機伺服器）、Bow Pod32（8台Bow-2000和一台主機伺服器）、Bow Pod64以及更大的旗艦系統Bow Pod256和Bow Pod1024。其中，Bow Pod16能提供5.6 PetaFLOPS的算力，向上縱向擴充到Bow Pod32、Bow Pod64，再以Bow Pod64作為橫向擴充單元，擴充到Bow Pod256、Bow Pod1024等。旗艦産品Bow Pod256可以提供超過89 PetaFLOPS的AI算力，超大規模Bow Pod1024（目前處于早期通路版本）可提供358.4 PetaFLOPS的AI算力。橫向擴充方面，如果以IPU-POD16的性能作為基準，Bow Pod16的性能有1.4倍，Bow Pod256有18倍。

Graphcore中國工程副總裁、AI算法科學家金琛

第三代IPU系統Bow系列

“這些性能的提升在很大程度上也歸功于軟體棧的生态系統。”Graphcore中國工程副總裁、AI算法科學家金琛表示，“核心的部分就是Poplar SDK，包括驅動器、編譯器等等。在此基礎之上，Graphcore還有着豐富的生态，例如支援PyTorch、TensorFlow、HALO、PaddlePaddle、Keras等架構和庫，并且支援Jupyter Notebook、Inference Deployment Toolkit等。面向開發者社群，我們提供了廣泛的代碼用例，以及各種文檔、視訊的示範。例如在機器學習的應用上提供了豐富的模型範例，覆寫圖像識别、檢測、語音等AI領域，這些範例還在持續增加。在雲上，我們也提供了廣泛的部署、監控、管理、內建等功能。還有PopVision工具，可以幫助使用者和Poplar程式設計者更有效地提升應用在我們的平台上的性能優化。”

Poplar SDK

在各類AI應用的真實環境中，在與配有Bow Pod系統的Mk2 IPU-Pod系統相同的峰值功率範圍内，各類AI應用的性能提升可達到40%，包括圖像分類、檢測、文本到圖像等，覆寫CNN、Transformer等網絡。對于計算機視覺模型EfficientNet，在EfficientNet-B4上的性能提升達到39%，Bow Pod16性能是同類Nvidia DGX A100系統的5倍左右，神經網絡模型訓練大概隻需要14個小時，而價格隻有一半，相當于TCO優勢提升10倍。實際表現中，Bow系統的性能和上一代産品相比也有較大的提升，在Conformer模型上，有着36%的提升，在ASR的模型和TextToSpeech（文本轉語音）的模型上，有着約39%的提升。在較大幅度性能提升的基礎之上，Graphcore還保證了整體性能的有效性，相關的模型可以達到接近96%的電源效率。

Bow在實際場景中的應用表現

Bow Pod可為各種AI應用提供更好的性能表現

盧濤稱，人類大腦裡面約有860億個神經元、100萬億個突觸。如果将突觸類比AI模型的參數個數，那麼目前最大的AI模型約有1.6萬億個參數，距離人腦還有100倍的差距。為了邁向未來AI，Graphcore正在開發一款可以用來超越人腦處理的超級智能機器——Good Computer（古德計算機），預計在2024年傳遞。這款機器會搭載新一代IPU技術，帶來超過10 Exa-Flops的AI浮點計算、最高4PB的存儲、帶寬超過10PB/秒，支援超過500萬億參數的AI模型，獲得Poplar SDK的完全支援，并且會延續3D Wafer-on-Wafer邏輯棧。價格方面，該計算機預計在100萬美元至1.5億美元（取決于配置）。

Good Computer（古德計算機）

目前，Bow IPU已經獲得了不少客戶的部署和認可，例如美國的一所國家實驗室就利用其進行了基于Transformer模型和圖神經網絡的實踐，主要應用場景為化學研究、網絡安全等。此外，Graphcore在醫療健康、保險、雲計算、氣象、分子動力學、網際網路等行業的客戶也在加速落地。在中國市場，已經有客戶拿到了Bow系統，計劃展開測試和部署應用。針對該系統的模型性能優化等軟體開發工作，也是由Graphcore的中國團隊完成的。

Graphcore的客戶遍及各行各業

随着企業的數字化轉型步入深水區，愈發多元化、複雜化的工作負載催生了異構計算的黃金時期，IPU能夠在一衆XPU中殺出重圍，除了有着領先的工藝設計和架構優勢、完善的軟體棧，還有能夠讓其大展拳腳的模型執行個體和應用場景。以Transformer為例，CV、語音等越來越多的垂直應用轉向Transformer，對網絡訓練的深度和精度提出了更高的要求。而早在2020年，Graphcore就觀察到了這一趨勢，并為此進行了大量的技術研發，IPU的架構設計與之也較為适應，例如在訓練方面的表現不輸于NVIDIA的系統，在推理方面的表現則要更好。

“起初，IPU并沒有針對某個具體的模型來設計，原因是我們認為AI計算在底層都是以計算圖來組織的，是以要看怎樣的計算架構适合相應的應用。像是在Transformer場景中，IPU的優勢就比較大。”盧濤表示，“如今，AI領域呈現着X×Y×Z的關系，即X是應用，Y是架構，Z是處理器，X×Y×Z的可能性會有很多。如果有一套主線出來之後，對于晶片廠商仍會有廣闊的空間，但大體上都是沿着一條主幹道在發展，這樣對于客戶、開發者都是有好處的。”

(7881494)

Bow IPU＋超級智能——Graphcore邁向未來AI的關鍵

繼續閱讀

全球首款256核心處理器來也！3nm工藝、非x86

華為新釋出的平闆MatePad11.5，搭載了跟Pura70一樣的處理器麒麟9000S1晶片，性能夠用。11.5英寸的屏

新款惠普戰99筆記本上線官網：酷睿Ultra 銳龍8040處理器

震撼釋出！Intel箭湖處理器年内登場，告别超線程帶來新驚喜

在當今日新月異的科技浪潮中，一款高成本效益的RK3568主機闆正嶄露頭角，成為衆多科技愛好者的新寵。這款主機闆憑借其卓越的性能

華為Kirin X系列PC處理器“轉正”傳言辟謠！官方回應：

搭載骁龍X處理器的三星Galaxy Book4 Edge即将釋出

vivo Pad3配置曝光：12.1英寸2.8K螢幕+骁龍8s Gen3處理器

買新不買舊？我勸你三思！AMD銳龍5 8400F處理器評測

【平闆】vivoPad3曝光 12.1英寸屏/骁龍8sGen3處理器

曝華為 nova12ultra星耀版搭載麒麟9010L處理器

6000mAh+4nm骁龍處理器，12G+256G到手價僅1299元

三星M35設計和規格曝光！将搭載Exynos 1380處理器

華為麒麟涅槃歸來，手機處理器高居第六，聯發科第一紫光展銳第四

華為剛剛釋出的新機，系統不是微軟，處理器也不是英特爾

nova 12 Ultra星耀版處理器揭曉：麒麟9010L