天天看點

阿裡釋出首顆量産AI「超大晶片」:高出兄弟公司新品四倍,上雲就能用

含光,上古三劍之首,「吾有三劍,惟子所擇。一曰含光,視不可見,運之不知其所觸,泯然無際,經物而物不覺。」

繼玄鐵、無劍的刀光劍影之後,阿裡的「含光」更多了幾分道家的玄妙之意。

9 月 25 日機器之心消息,阿裡杭州雲栖大會現場,阿裡首顆雲端超大型 AI 推理晶片含光 800 正式釋出。基于含光 800 的 AI 雲服務也于當天正式上線,相比傳統 GPU 算力,成本效益提升 100%。

阿裡釋出首顆量産AI「超大晶片」:高出兄弟公司新品四倍,上雲就能用

所謂「玄妙」,在于這是一顆集阿裡巴巴算法(Algorithm)、大資料(Big Data)、算力(Computing)、應用場景(Domain)、生态體系(Ecosystem)五大優勢之大成的雲端晶片。

「這不單純是晶片團隊的工作」,阿裡平頭哥首席科學家、阿裡進階研究員元尊向機器之心說道,「達摩院提前做了很多算法調研為晶片內建提供深刻了解;城市大腦、拍立淘等團隊積累的豐富資料為晶片加速測試和優化,以及應用場景的方案經驗的深厚積累都為含光高效而穩健的落地提供了保障」。

基于阿裡生态獨有的 AI 技術與業務優勢,平頭哥團隊将含光 800 從研發到成功流片的時間精準地控制在 10 個月内,幾乎創下了半導體設計制造行業的記錄。

目前,該顆晶片已經部署在阿裡雲平台,供阿裡内部的多個視覺業務場景大規模使用,未來還将應用到醫療影像、自動駕駛等廣闊場景。

此前,阿裡已經推出高性能自主處理器 IP 玄鐵和一站式晶片設計平台無劍,面向廣大晶片主加速其晶片産業落地。

張建鋒說:「在全球晶片領域,阿裡巴巴是一個新人,玄鐵和含光 800 是平頭哥的萬裡長征第一步,我們還有很長的路要走。」

今天,含光一出,為阿裡雲業務和算力競争力帶來質的提升——它是阿裡真正意義上首顆完成量産以及部署運作的晶片,同時将依托于亞太第一的阿裡雲計算平台向全球使用者直接輸出其強大算力。

01 以一當十, 将推理性能推到極緻

阿裡釋出首顆量産AI「超大晶片」:高出兄弟公司新品四倍,上雲就能用

在雲栖大會上談起朋克少年平頭哥,顯得格外親切。

一年前的雲栖大會現場,平頭哥半導體有限公司在這裡面世,它是阿裡旗下一家獨立的晶片企業,吸收了國内唯一具備 CPU 知識産權和量産經驗的晶片公司中天微,與阿裡的 AI 技術綜合平台達摩院聯系密切。

周歲之際,平頭哥帶來了首顆雲端 AI 晶片含光 800,「這同時也是網際網路公司的首顆『大晶片』」,達摩院院長張建鋒為其寫下注腳。

所謂「大晶片」,是指單靠一顆含光 800NPU,能夠在一秒内處理 7.8 萬張圖檔。

含光 800 主要用于雲端視覺處理場景,性能打破了現有 AI 晶片記錄。據阿裡資料顯示,性能及能效比全球第一,在晶片測試标準平台 ResNet-50 上的具體分數為:

性能 78563 IPS(Image Per Second),是第二名高 4 倍;

能效比 500 IPS/W,是第二名(150)3.3 倍。

阿裡釋出首顆量産AI「超大晶片」:高出兄弟公司新品四倍,上雲就能用

張建鋒現場展示了該顆晶片和業界典型算力「怪獸」的對比,其中包括兩款 AI 晶片、兩款 GPU 晶片,但并未點名其晶片品牌和型号。不過,張建鋒補充道,「這是我們的兄弟公司,前不久剛開發完釋出會」。

對比英偉達官網 Tesla V100 計算卡的公開資料,針對 ResNet50 模型一秒能夠處理圖檔(推理)的數量為 7830images/sec,這個數字相當于目前含光 800 的十分之一。

阿裡釋出首顆量産AI「超大晶片」:高出兄弟公司新品四倍,上雲就能用

在杭州城市大腦的業務實測中,1 顆含光 800 的算力相當于 10 顆 GPU。

阿裡釋出首顆量産AI「超大晶片」:高出兄弟公司新品四倍,上雲就能用

換句話說,阿裡的含光 800 将雲上的推理性能推到了極緻。

作為一名後來者居上的非傳統晶片挑戰者,阿裡平頭哥團隊除了充分發揮出硬體層面的深厚積澱,還針對配套的軟體棧和開發工具做了巨大投入,以撼動英偉達在雲上的強大生态。目前,阿裡具備完全自主能力的包括自研的晶片架構、軟體編譯器、架構、工具鍊等。

在深度學習開發工具和支援方面,阿裡從 2015 年起就開始打造人工智能學習平台 PAI,涵蓋多種訓練和計算加速工具,強調大規模分布式計算的能力優勢,目前已經疊代到第三代。

針對針對廣告、搜尋、推薦等典型資料處理場景,阿裡自研了新一代工業級分布式深度學習架構——XDL,主打高維稀疏資料的性能優化,為 AI 算力的軟硬一體化戰略落地提供了優異的先天條件。

與此同時,含光 800 針對 INT8 資料類型做了大量優化,最終在性能、良率、功耗等名額上均表現良好。

「相較于訓練,目前推理才是雲上更大的核心業務需求」。據平頭哥算法負責人星瞳表示,無論是線上還是離線的業務需求都是基于推理來完成,比如常見的檢測、分類、分割、識别等運算。

02 突破傳統 ASIC 局限

含光定位于一款 ASIC 架構的 NPU 專用加速器,ASIC 意味着針對某種特定的需求而專門定制,NPU 則将方向瞄準深度學習領域的神經網絡加速 (Natural Processing Unit)。

基于馮諾依曼結構的傳統通用處理器,比如常見的 x86 CPU、GPU,它們采用分離的存儲和運算處理單元設計,面向大量的深度神經網絡計算任務時,需要大量讀寫運作操作,受限于帶寬限制,效率較為低下。

ASIC 晶片能夠特定場景和算法進行定制,意味着執行特定算法時能獲得最高的效率和性能。

阿裡釋出首顆量産AI「超大晶片」:高出兄弟公司新品四倍,上雲就能用

以含光 800 為代表的神經網絡晶片,根據神經網絡推理運算特征,設計特定的硬體神經元、高速連接配接的存儲結構以及專用指令集,對記憶體和計算單元實作高效組織管理,實作單條指令完成多個操作,提高計算效率和記憶體通路效率。

基于這一思路,市面上的神經網絡加速晶片層出不窮,形成了百家争鳴的盛況。但我們同時也應用看到專用和定制的反面,常見的 ASIC 通常在場景的遷移性和算法通用性方面大打折扣,通常隻會在十分明确的算法場景下表現優異。

将目光聚焦在阿裡的含光 800,似乎走了一條不太尋常的 ASIC 之路。

它不僅實作了同時相容海量的圖像搜尋、城市大腦領域的視訊識别、智慧醫療領域的醫療影像識别、網頁設計領域的圖像生成等不同計算需求環境,還針對這些豐富的場景挖掘出了極大的計算優化潛能。

根據雲栖大會的現場示範,在城市大腦中實時處理杭州主城區交通視訊,需要 40 顆傳統 GPU,延時為 300ms,使用含光 800 僅需 4 顆,延時降至 150ms。

拍立淘商品庫每天新增 10 億商品圖檔,使用傳統 GPU 算力識别需要 1 小時,使用含光 800 後可縮減至 5 分鐘。

阿裡釋出首顆量産AI「超大晶片」:高出兄弟公司新品四倍,上雲就能用

平頭哥算法負責人星瞳向機器之心解釋了背後的優化機制:

雖然上述業務看起來比較多樣化,但在視覺領域的計算多由若幹典型計算架構構成,上升到骨幹網絡上的差異性比較小,是以盡管定位于一款 ASIC 晶片仍強調一定的通用性,保證相容常見的深度學習算法和架構,

與此同時,針對具體的行業應用,還需要阿裡達摩院的算法人員針對不同場景進一步優化。星瞳向機器之心透露,這是含光 800 算力針對性提升的關鍵,比如套用風格遷移的思路,加速算法的移植和優化。

整體來看,這些應用和算法加速的基礎主要脫胎于阿裡數字經濟體内部以及阿裡雲外部的業務實踐,進一步凸顯出阿裡打造晶片生态的獨特思路。

值得注意的是,平頭哥用最短的時間完成了晶片的設計、流片整個過程,7 個月完成前端設計,之後僅了 3 個月就成功流片。

晶片設計是一個複雜的系統工程,單純完成設計并不意味着就可以流片成功,這是行業的深水區,假如流片失敗,就意味着硬體設計需要推倒重來,這比軟體出 BUG 問題更加嚴重。一般晶片公司需要做兩次(engineering sample、production sample)或多次才能流片成功。

而流片成功後也不代表就可以直接商用了,它還需要經過複雜的測試驗證,在各項名額都符合實際場景需求後才到了真正的商用階段。

需要說明的是,含光 800 已經完成了整個過程,應用于阿裡巴巴集團内部各大場景,這背後主要得益于阿裡軟硬體的深厚積累,以及豐富的驗證場景。

平頭哥研發晶片并非從 0 開始,在阿裡達摩院的算法以及阿裡巴巴集團硬體基礎設施多年技術沉澱之上,含光 800 重構了晶片的軟硬體技術棧。

含光 800 性能的突破得益于軟硬體的協同創新:晶片架構設計采用稀疏、量化等推理加速技術,以及密集壓縮的計算、存儲、流水線技術,有效解決晶片性能瓶頸問題;該晶片還內建了達摩院算法,深度優化 CNN 網絡及視覺 DNN 模型,提升視覺計算效率。

算法方面,阿裡巴巴達摩院機器智能實驗室過去兩年建構了完整的算法體系,涵蓋語音智能、語言技術、機器視覺、決策智能等方向,并且取得多個世界領先水準的成果;硬體方面,阿裡巴巴此前已在伺服器、FPGA 以及存儲等領域擁有多年研發經驗,此外,平頭哥團隊在體系結構、編譯技術等領域擁有深厚的技術儲備。

基于這些能力,平頭哥突破了算法和硬體之間的鴻溝,基于阿裡巴巴豐富的場景和達摩院算法能力,自研晶片架構,并且設計了完整軟體棧。

這樣的設計理念效果立竿見影,例如功耗是人工智能晶片行業通病,平頭哥自研架構可大幅減少對記憶體的通路,在保證極緻性能的情況下,把晶片功耗降到最低水準。

03 不「賣」晶片,「賣」什麼

和絕大多數晶片商不同的是,平頭哥的目的并非賣晶片,換句話說,含光 800 主要通過 AI 雲服務提供算力,不會單獨出售晶片産品。

含光 800 的算力也不僅僅滿足阿裡巴巴集團内部場景的需求,還會通過阿裡雲對外輸出,幫助企業用更低的成本擷取高性能算力,加速業務創新,例如,對于受限于算力瓶頸的企業而言,含光 800 可以更高效地運作更複雜、更先進的算法。

在人工智能場景中,含光 800 是異構計算很好地補充,通過阿裡雲可以為企業提供更多的選擇,未來平頭哥還會推出更多形态的人工智能晶片,在終端、雲資料中心都會有更大規模的部署和應用。

随着含光 800 的釋出,平頭哥端雲一體全棧晶片産品家族雛形已現,實作了晶片設計鍊路的全覆寫,涵蓋處理器 IP 玄鐵系列,一站式晶片設計平台無劍 SoC,以及 AI 晶片含光 800:

基礎單元處理器 IP,C-Sky 系列、玄鐵系列為 AIoT 終端晶片提供高成本效益 IP;

一站式晶片設計平台,無劍 SoC 平台內建 CPU、GPU、NPU 等,降低晶片設計門檻

AI 晶片,含光 800 通過 AI 雲服務為人工智能場景提供極緻算力。

這三大産品系列将建構端雲一體的晶片生态,為企業提供普惠算力。

未來,産品形态還會進一步完善,例如雲上 AI 訓練晶片和端上的 AI 推理晶片,目前平頭哥還在研發用于阿裡雲神龍伺服器的 SoC 專用晶片,以滿足更多場景的算力需求。

在端側,平頭哥緻力于做普惠晶片,無劍 SoC 平台和玄鐵處理器 IP 來幫助企業降低晶片設計門檻;在雲上,含光 800 通過阿裡雲 AI 雲服務的形式讓企業随時随地可以享受高性能計算服務。

平頭哥副總裁孟建熠在接受機器之心采訪時表示,平頭哥後續将進一步深化和放大雲端協同的優勢,比如終端采用平頭哥的 IoT 晶片意味着在阿裡物聯網系統 AliOS 下能夠得到最優異的表現,同時更容易、更便捷接入阿裡雲生态和算力;相應地,阿裡雲上的超大推理算力也更容易賦能到各種搭載了 AliOS 系統的終端裝置。

平頭哥延續了母體阿裡巴巴集團「讓天下沒有難做生意」的願景,開辟了全新的商業模式(平頭哥模式),緻力于為企業提供普惠算力,目前已經擁有全棧晶片産品家族,涵蓋終端處理器 IP、終端晶片設計平台 SoC、雲端 AI 晶片。

依托于阿裡經濟體豐富的場景為研發人工智能晶片提供了絕佳平台,這是平頭哥的天然優勢。依托阿裡巴巴集團豐富的應用場景,平頭哥早期就針對場景做了大量優化,是以實作了性能上的突破。

在這次雲栖大會現場,首批搭載平頭哥玄鐵處理器或基于平頭哥無劍平台設計的晶片産品已經基本落地,分别來自業界七家晶片企業,包括清華背景的清微智能(Thinker)、雲天勵飛、炬芯、奉加微(通信晶片)、聯盛德微、艾派克、博雅鴻圖等客戶)。

此外,平頭哥正在打造完善的行業生态和開發者生态。

在雲端,全球前三、亞太第一的阿裡雲為平頭哥服務企業提供了絕佳平台,未來企業可以通過阿裡雲輕松擷取含光 800 的極緻算力。

含光 NPU 已經大規模應用于内部場景,未來企業可以在阿裡雲上擷取其極緻算力。端雲一體晶片是平頭哥的主要方向,終端玄鐵處理器可以與雲端含光晶片協同。

在端側,平頭哥已擁有成熟的生态體系,CK801、CK802、CK803、CK805、CK807、CK810、CK860 等 7 款自研嵌入式 CPU IP 核均已得到大規模量産的驗證,授權客戶超 100 家,累計銷售超十億顆,廣泛應用于機器視覺、工業控制、車載終端、移動通信和資訊安全等領域。

除此之外,基于 RISC-V 架構的玄鐵處理器以及無劍 SoC 平台也已服務各行業企業,例如人工智能企業雲天勵飛、老牌晶片商炬芯科技等。

另一方面,平頭哥還将成立晶片開放社群,進一步為晶片産業提供開放協作的平台。

04 平頭哥的「RoadMap」

采訪過程中,阿裡方面并沒有透露平頭哥的晶片規劃矩陣,但透過一些資訊梳理,我們或許得以看見平頭哥更遠的未來。

目前,阿裡已經完成了雲端兩大陣線上的初步布局,端上做晶片基礎設施,雲端為企業提供普惠算力。處理器是所有高端系統晶片都需要的産品,它是最核心的基礎設施産品,AI 晶片是人工智能場景最高效的算力單元,阿裡将投入重金打造好這些技術,同時建構應用生态。

後續阿裡還将進一步深化這兩大産品線。據阿裡平頭哥首席科學家、阿裡進階研究員元尊向機器之心表示,在推理晶片之外,阿裡已經将訓練晶片設在日程上。

而在終端,早在上個月的 HOTCHIPS 會議上,阿裡巴巴就釋出了新一代 AI 語音 FPGA 晶片技術--Ouroboros。這是業界首款專為語音合成算法設計的 AI FPGA 晶片結構,可将語音生成算法的計算效率提高 100 多倍。據悉,該款晶片将率先落地在阿裡智能音箱天貓精靈上。

而在這兩大産品線之外,阿裡還将延伸出一條全新的面向雲端的 SoC 産品矩陣,将用于新一代阿裡雲神龍伺服器的核心元件 MOC 卡,推動雲計算技術更新。

阿裡雲神龍伺服器 (X-Dragon Cloud Server) 出自達摩院,是一種可水準彈性伸縮的高性能計算服務,融合了實體機與雲伺服器的各自優勢,能實作超強、超穩的計算能力,并有自主研發的虛拟化 2.0 技術。

此外,平頭哥還将繼續開發作業系統,軟硬體融合的算法,核心的 IP 等。把這些共性的技術能夠做好做精做出競争力,并形成生态,然後開放給我們的晶片設計産品,讓他們基于高品質的基礎設施打造晶片産品,有助于提升整體的産業競争力。

晶片、AI 和雲計算之間互相融合、協調發展是大勢所趨,阿裡巴巴堅持晶片、AI 和雲計算三位一體、協同發展:人工智能算法逐漸內建到晶片,內建算法的專用晶片為雲服務提供了更強的性能,而雲計算本身則加速了人工智能應用的大規模落地。

過去十年,阿裡巴巴的 AI 和雲計算齊頭并進,在這兩大領域,已經跻身全球前列。

作為業界最大的人工智能應用者之一,阿裡巴巴擁有豐富的應用場景,在此之上達摩院已建成完善的算法體系,涵蓋語音智能、語言技術、機器視覺、決策智能等方向,并取得多個世界領先水準的成果,在國際頂級學術會議上共發表了近 400 篇頂級論文;阿裡雲穩居全球雲計算廠商前三、亞太第一的位置,超過一半的中國 A 股上市公司和 80% 中國科技類企業在使用阿裡雲的服務。

平頭哥則得到了達摩院和阿裡雲的軟實力加持,例如基于達摩院的算法能力,打破了算法和硬體之間的鴻溝;基于阿裡雲飛天雲平台的優勢,快速形成了端雲一體晶片生态,玄鐵系列處理器以及無劍平台大幅降低終端晶片設計的門檻,含光 800 通過阿裡雲輸出給全社會,讓企業随時随地可以享受到極緻算力。

總體來說,晶片是計算力的核心。計算力是所有網際網路應用的基礎。研發晶片可以降低阿裡巴巴經濟體整體計算的成本,還可以以雲服務的方式傳遞,以更高的性能和更低的成本賦能更多的企業。

本文為機器之心原創,轉載請聯系本公衆号獲得授權。

繼續閱讀