天天看點

阿裡自研CPU大規模應用!芯雲合體重塑算力體系

阿裡自研CPU大規模應用!芯雲合體重塑算力體系

智東西(公衆号:zhidxcom)

作者 | 李水青

編輯 | 漠影

智東西11月3日杭州報道,今日,在2022雲栖大會上,阿裡雲智能總裁張建鋒宣布,阿裡平頭哥自研雲原生處理器倚天710已大規模部署應用,成為中國首個雲上大規模落地的自研CPU。

作為阿裡首款自研伺服器CPU,倚天710自去年10月推出以來已落地了資料庫、大資料、視訊編解碼等多個場景。張建鋒說,應用倚天710雲執行個體,算力成本效益提升超30%,機關算力功耗降低60%,未來兩年20%的新增算力将使用自研CPU。

阿裡自研CPU大規模應用!芯雲合體重塑算力體系

阿裡雲智能總裁張建鋒

當下,算力成為像水力、電力一樣重要的生産要素,雲計算已融入到人們生産生活的方方面面。如何進一步提高算力效率以滿足數字化轉型需求?這成為全球科技公司關注的議題。

晶片、作業系統和上層應用的原生融合已是大勢所趨,未來十年,軟硬體一體化的自研技術體系或将成為算力攻堅突破的關鍵。縱觀阿裡技術發展脈絡,其已從軟體深入到硬體,并涉足技術門檻極高的通用CPU領域。

在當下CPU領域,流片不再稀奇,能規模化落地的“好用”處理器卻不多。倚天710的規模化落地無疑再度重新整理網際網路公司造芯的天花闆水準。

那麼倚天710是如何在推出一年多快速落地的?這又如何影響阿裡乃至算力産業的發展道路?本文對此進行了深入探讨。

一、自研CPU大規模落地,成本效益提升30%

2022年科技圈的主題是産業落地,在2022雲栖大會現場,關于倚天710的新消息印證了這一趨勢。

創立于中國廣州的彙量科技是一家營銷SaaS企業,為全球超95個國家客戶提供服務。彙量科技首席AI官朱小強說:“随着廣告模型結構不斷更新,線上推理模型請求參數變多,我們對CPU性能和内網帶寬要求更高,倚天710雲執行個體很好地滿足了我們業務更新的需求,實作了降本與增效。”據悉,其在引入倚天710雲執行個體後,CPU性能和内網帶寬均實作提升,綜合成本效益提升40%以上。

在去年10月的2021阿裡雲栖大會上,倚天710正式推出,這是阿裡第一顆為雲而生的CPU,使阿裡成為繼亞馬遜、華為後,全球第三家擁有自研Arm伺服器晶片的雲計算廠商。

倚天710單片容納高達600億個半導體,在全球權威CPU基準測試集SPECint2017上,倚天710的分數達到440,超出業界标杆20%,能效比優于業界标杆50%以上,能有效幫助資料中心節能減排。

阿裡自研CPU大規模應用!芯雲合體重塑算力體系

在倚天710推出不久後的2021年“天貓雙11”,技術立馬遭遇極限考驗。

衆所周知,“天貓雙11”創造了全社會一年的流量高峰,高并發對算力的性能、穩定性要求極高。阿裡将淘寶核心交易系統遷移至基于倚天710的執行個體,根據其官方資料,這一替換使得算力成本效益提升了30%。

電商業務的應用隻是一個開始。阿裡在全球管理着超過150萬台伺服器,随着自研CPU的誕生,其已在阿裡資料中心規模化部署,進而支援存儲、資料庫、大資料、視訊雲等多個行業。

今年,倚天710的落地步伐加快,通過阿裡雲輸出,倚天710提供的算力也從内部走向了外部各行各業。據稱,中國一些知名的科學計算、智能手機行業和網際網路等領域的企業在遷移至倚天710雲執行個體後,成本效益均得到了顯著提升。

這意味着倚天真正成為中國首個雲上大規模應用的自研CPU,倚天710不僅能用,而且好用。

二、攻克落地難題,芯雲融合潛力巨大

倚天710的成功絕不輕易。

當下,科技企業湧入硬體創新賽道漸成趨勢,但選擇征戰通用處理器技術的玩家屈指可數。

近年來,Arm陣營在英特爾、AMD主導的x86伺服器市場劃開了一道口子。Arm于2018年推出了專為雲資料中心打造的伺服器處理器,而基于Arm架構,目前隻有亞馬遜等幾家大公司及少數獨立CPU公司推出了頂級性能的雲端通用處理器。

研發一顆高性能的通用伺服器晶片本身就極具技術挑戰,但這僅僅是系列挑戰的開始。要真正實作晶片的大規模應用落地,還要克服衆多技術難題。

在這個過程中,技術團隊需要針對場景做深度優化,讓其适配不同的軟體及應用生态。比如,需要提供多語言和多作業系統遷移工具,并且“打樣”最佳實踐,讓使用者願意嘗試,以最小的工作量完成遷移适配。

阿裡技術團隊在作業系統層面做了大量優化,完成主流業務關鍵元件的完全适配,使用者進行業務遷移需要改動的代碼量是——0。

能做到這樣的極緻效果,背後是倚天710為雲而生的設計理念。為雲而生,當然更易被雲所用。

雲場景經常有高并發、高性能和高能效的算力需求,是以倚天710被設計成可提供極緻實體核性能的處理器,并且通過單個實體核獨享緩存,有效提升性能穩定性和可預期度,讓使用倚天710雲執行個體的計算服務,能持續輸出更穩定算力。

生于雲、用于雲,倚天710雲執行個體的大規模應用,證明了阿裡所選擇的這條芯雲深度融合的算力攻堅之路,走得通,行得遠。

阿裡自研CPU大規模應用!芯雲合體重塑算力體系

三、算力升維賽打響,阿裡亮出新王牌

知名行研機構IDC預測,未來五年全球算力規模增速将超50%,到2025年整體達到3300EFlops(每秒33萬億億次浮點運算)。

算力需求的爆發,對技術提出更高挑戰。

回顧現代算力産業發展曆程,從大型機、小型機、PC、移動終端到雲計算,背後,人們對算力的需求也從早期僅需發個資訊,變為發圖文、看視訊、實時通話等。在可以預見的未來,自動駕駛、元宇宙、人工智能需求将推動新一波算力升維賽。

算力産業正進入一個軟體定義、硬體加速的新階段。這場算力升維賽,既比拼從底層硬體到上層IaaS、PaaS、SaaS的資料傳輸和計算效率,又比拼雲與大量和多樣化的邊緣、端側的協同融合能力。

面向這一趨勢,從本次阿裡雲栖大會我們看到,阿裡的新王牌,正是“飛天+CIPU+倚天710”驅動的一個全新的計算體系。

阿裡自研CPU大規模應用!芯雲合體重塑算力體系

追溯整個體系的起點,還要從2009年飛天的第一行代碼說起。

彼時,國内依舊沒有自己的算力系統,IOE(IBM小型機、Oracle資料庫、EMC存儲)架構下企業隻能不斷擴大采購規模。飛天的誕生讓算力成為一種可線上擷取的資源,分布式替代了傳統集中式架構,也進而拉開了中國企業自研雲計算的序幕。

2013年,飛天排程的伺服器數量突破5000台大關,标志着早期的算力底座正式落成。基于此,阿裡雲成功應對十多年“雙11”和“12306”春運購票等極限并發場景挑戰,不斷拓展雲計算的性能邊界,連續多年穩居亞太第一、全球前三。

随着數字經濟的蓬勃發展,企業對上雲提出了強算力、低延遲時間、高帶寬的新需求,僅靠軟體及系統層面的優化已無法滿足。是以,阿裡開始深入硬體,從神龍到CIPU,完成系列突破。

CIPU釋出于2021年6月,是為阿裡雲飛天作業系統設計的專用處理器。CIPU相當于是雲計算的CPU,在上面跑的是飛天雲作業系統,進而形成了雲上的統一虛拟資源池,并供客戶使用雲上算力。無論是分布式應用還是AI場景測試中,“CIPU+飛天”都展現出了更優越的性能。

今天,倚天710雲執行個體再次更新“CIPU+飛天”,通過晶片、作業系統、計算架構以及上層應用的協同優化,雲計算的整體性能和成本效益均得到大幅提升。

算力攻堅13年,阿裡已成長為實打實的硬科技公司。張建鋒說,阿裡雲将堅持技術長征,面向下一代體系去建構第二技術曲線,抓住未來技術的定義權。

阿裡自研CPU大規模應用!芯雲合體重塑算力體系

繼續閱讀