李根 魚羊 假裝發自 西溪
量子位 | 公衆号 QbitAI
“生死看淡,不服就幹”,平頭哥造芯模式,正式跑通。
2022雲栖大會現場,新進展再次由阿裡雲智能總裁張建鋒對外宣布。
倚天710已大規模應用,成為中國首個雲上大規模應用的自研CPU。
在核心應用場景中,算力成本效益提升30%以上,機關算力功耗(耗電量)降低60%以上。
張建鋒還宣布,倚天710的部署規模還會進一步擴大,未來兩年20%的新增算力都将使用自研CPU。
更直白翻譯,就是以後阿裡雲的晶片部署中,每10顆CPU晶片裡就有2顆自研CPU。
這個進展和應用,為何重要?
首先,大規模部署代表着晶片産品獲得了市場檢驗,也意味着最難的生态一環達成閉環——雖然不如新硬體來的“刺激”,但意義和價值卻絲毫不遜于新品釋出,甚至長遠來看,量級簡直不能相提并論。
其次,倚天710,作為一款基于Arm架構的雲端CPU,想要在x86占主導地位的全球雲計算和伺服器晶片生态中立足,更是難上加難,目标十中有二更是Arm架構在雲端裡程碑式的新突破。
最後,倚天710的大規模部署,不僅是中國首個自研CPU的應用紀錄,還意味着誕生在造芯浪潮中的平頭哥模式幹出來了!
縱觀半導體半個世紀的發展史,檢驗造芯模式的核心關鍵一以貫之:
- 造出來(設計和流片)
- 用得上(需求和性能)
- 用得好(功耗和成本)
- 離不開(工具和生态)
而在倚天710的進展中,這四大流程關鍵,平頭哥都(一口氣)完成了實踐證明。
唯一待解之謎,隻剩下造芯模式的通關速度——
傳統IT時代的造芯公司和通用晶片,短則5~7年,長則可能10年……
而平頭哥的倚天710,僅僅用了2年。
是以這種模式和速度背後,根本原因是什麼?
是半導體領域也面臨世紀變革?
抑或一個時代果真有一個時代的造芯模式?
中國首個雲端大規模應用的自研CPU
倚天710,2021年雲栖大會釋出,是平頭哥造芯以來交出的首款通用型CPU。
單晶片600億半導體、128核、主頻3.2GHz……首戰跑分就超出業内标杆20%,能效比提升50%以上。
主要用于雲計算場景,基于Arm v9架構,首發即重新整理了Arm伺服器晶片性能紀錄。
作為通用晶片,需要囊括接收、處理、運算伺服器計算機内部所有資訊,是業内公認的設計難度最高的晶片之一。
但晶片之難,最根本還不在于設計和制造,更關鍵的是落地和應用:能夠真正讓更多人用得上、用得好,以強大的生态拱衛壘砌起護城河。
于是一年之後,平頭哥交出重要答卷。
阿裡雲方面稱,經過一年業務驗證,倚天710已規模部署并對外提供服務。
具體到應用場景中,在資料庫、大資料、視訊編解碼、AI推理等核心場景中的成本效益提升30%以上,機關算力功耗(耗電量)降低60%以上。
這種應用執行個體,有阿裡内部的新業務,也有外部客戶:比如研究機構,智能手機企業,還有知名網際網路公司。
主打資料智能SaaS工具生态的彙量科技就表示,在廣告推理中使用倚天710執行個體後,不僅有效提升了CPU處理能力和網絡帶寬,成本對比傳統執行個體也降低15-20%,綜合成本效益提升40%以上。
而阿裡集團内部,倚天710則開始支援最核心的電商業務,并且成功在雙11等峰值流量大考中,經受住了實戰檢驗。
這種應用和回報,意外嗎?不算意外。
畢竟性能和參數,從設計和成功流片之後,就決定了跑分成績。
但一款Arm雲端CPU能夠快速應用于不同場景和服務,适配不同領域的軟體和應用,純靠硬體之力,辦不到。
阿裡雲方面解釋,這背後離不開倚天710、飛天作業系統和CIPU融合,首次實作了晶片、計算架構及作業系統的協同優化。
而且從造芯啟動開始,算法、軟體和生态工具的相關工作也早已啟動,作用到倚天710大規模部署中,實作了全應用生态的适配,甚至0代碼修改即可完成主流業務遷移。
是以對于平頭哥造芯,軟體定義硬體、需求定義供給,都是已經驗證過的定理。但全局思維下的以終為始,把生态和應用納入到造芯流程中,卻是新角度、新方法。
這是對傳統晶片研發模式的根本性變革,也暗含雲原生映射的時代趨勢,更能解釋平頭哥造芯的模式和速度。
倚天710的成功、平頭哥模式的跑通,是雲計算定義硬體的成功,是雲計算重塑晶片甚至整個IT硬體體系的證明。
更代表着——IT時代全新的造芯模式開啟。
一個時代有一個時代的造芯模式
阿裡入局造芯,平頭哥不服就幹。
氣勢、速度和交貨,三位一體。
2018年9月,整合中天微和達摩院成立旗下晶片公司後,平頭哥半導體正式推出,放話“生死看淡”。
僅僅1年,首款處理器産品玄鐵910對外釋出,創造RISC-V開源陣營裡的最快紀錄。
又過1年,還在雲栖大會,首款AI專用晶片含光800,一劍霜寒十四州,首發特定場景性能就40倍于同領域标杆英偉達P4。
到了2021年,依然是雲栖,倚天710以阿裡首款為雲而生的通用CPU震動業内,性能跑分領先,能效比更是領跑……
加上今年披露的落地部署和應用進展,用産品回應質疑,用進展證明模式和實力。
整個程序中,平頭哥造芯模式的速度秘訣,也在摸象中逐漸清晰。核心歸結起來其實就3點。
第一,造得快,因為需求清晰。
傳統半導體廠商造芯,先調研客戶、再收集需求、接着内部收斂聚焦,然後才能進入定義和晶片設計……過程中免不了技術、産品和工程的拉鋸平衡,于是造芯周期光在前期規劃就會無限拉長。
平頭哥之是以不同,是因為阿裡雲在客戶服務、需求和算力産品定義上,積累已非一日,設計規劃周期,可以大大縮短。
第二,造得好,源自任務明确。
一方面,通過需求定義供給。什麼樣的任務,需要晶片提供什麼樣的能力……傳統造芯,先把性能按照天花闆設計,再在部署應用中想辦法适配和榨幹,晶片之于應用是參考答案。而需求定義供給,則可以抓住主要任務和沖突,晶片即解答。
另一方面,軟體定義硬體。晶片作為計算任務的解法內建,以前是先有硬體再配算法,但從AI為主的專用需求開始,最高效的解法早已變成了軟硬一體化方案,甚至為了算法和軟體去定制晶片硬體。
這種源頭起點上的變革,晶片的性能、功耗、應用落地,自然不會差。
第三,用得上且用得好,因為落地場景清晰。
平頭哥造芯,從一開始就與阿裡雲緊密協同,阿裡雲是集團同僚、客戶、也是落地場景,在阿裡生态内,就能完成晶片的全流程。
晶片的流程,之前最受關注的是設計和流片,但這其實隻是開始。
流片之後需要壓測,驗證穩定性,然後小批量傳遞客戶開發利用回報,進行功能性測試,如果有問題還得重新設計、改版,再走一遍周期,這也是為什麼一款晶片在流片成功之後,依然需要一年半載才能驗證應用價值的内在原因。
但平頭哥不同,在阿裡集團内部,在阿裡雲的體系協同下,各種壓測、場景和應用回報,基本是完整全鍊路的。
比如倚天710,去年8月點亮成功,雲栖大會官宣釋出,緊接着雙11就開啟了峰值極限下的穩定性壓測……以往傳統晶片公司用時一年半載才能完成的流程,阿裡幾個月就走完了,一款晶片的成熟周期,被大大縮短。
是以平頭哥造芯,自然是攻堅科技産業中最基礎又最關鍵的一環,但從一開始就并非為造而造,或者因為熱潮而出發。
平頭哥半導體的價值,或許要放在整個阿裡的算力攻堅程序中,才能透過局部看整體,透過現象看清本質。
阿裡雲的發展史,關于開創者們的往事記述很多,而且傳奇性和喜劇感十足,早已深入人心。
但從算力技術主線和次元,可以倒推歸結為4個階段。
第一個階段,用分布式技術解決算力瓶頸。
在全球網際網路流量大爆發之前,企業算力的核心載體是小型機,通過線下自建或租用伺服器的方式解決算力問題,但對于身處消費網際網路方向上的企業而言,這種模式顯然越來越難以為繼。
阿裡的算力攻堅,以及阿裡雲計算的肇始,就是基于這樣的背景。
2007年,為了應對指數級擴張的淘寶流量,阿裡開始從業務底層的IOE(IBM小型機、Oracle資料庫、EMC存儲)尋求根本性解法,即後來的基于雲計算搭建全新技術架構,打破“擴大采購規模”的線性局限。
其後進一步為這套底層技術和上層業務開發作業系統,在2009年正式啟動了飛天,阿裡雲也由此正式成立,沒想到日後會成為中國企業自研雲計算的開端。
飛天雲作業系統的本質,是要用分布式架構替換中心化架構,可以讓全世界伺服器實作連接配接,既能快速應對突增的流量,還能讓計算資源真正像水電一樣即需即用。
是以“分布式架構”和發展方向,就是算力攻堅的核心第一仗,後面叢集挑戰、故障運維、并發應對……都是正确方向之下的更新打怪。
結果則人人都感覺到了。雙11購物不再卡頓,12306春運購票也逐漸不再被吐槽……這都是阿裡在分布式計算思想下開花結果的功勞。
第二階段,從雲計算需求和痛點,反向定義新硬體。
雲計算的好處,一用即知,但虛拟化損耗的問題卻一度成為頑疾。
所謂虛拟化損耗,就是雲端調用線下伺服器的程序,本身就會吸走機器性能,造成算力浪費。
業内面對這一頑疾,往往采用更低成本的軟體優化方法,但顯然治标不治本,隻能優化,不能根治。
阿裡雲的方法是後來的神龍架構,打造了一個專用硬體來負責晶片不擅長的虛拟化排程工作,用軟硬體一體的思路真正做到了0損耗。
這讓阿裡雲一下子坐穩了份額第一的位置,也帶來了更重要的開始:算力攻堅要向底層硬體、甚至晶片尋求解法。
軟硬一體化,軟體定義硬體,或者說雲計算定義新硬體的趨勢……在阿裡雲,以2017年9月第一代神龍架構推出作為标志性節點。
第三階段,造芯,重塑整個IT硬體體系。
也就是目前所處的階段,以2017年達摩院成立,求解前沿晶片技術和2018年平頭哥半導體推出為标志性事件,阿裡雲真正從“軟”到“硬”,從雲端向下定義晶片。
當然這種求解,有宏觀社會責任擔當的原因,但在阿裡雲發展方向裡,趨勢也早已再明顯不過。
一方面是去IOE體系之下的硬體進一步變革需求。另一方面,作為雲計算服務提供商,不碰晶片,不碰硬體,其實就無法真正做到性能、成本和體驗的最優解。
于是可以看到,除了自研晶片,阿裡雲還在伺服器、交換機等硬體方面做了系統性革新,以晶片為起點,幾乎重塑了整個IT硬體體系。
上一階段的神龍架構計算平台,也在不斷更新,成為新物種:CIPU——向下可以對資料中心的計算、存儲和網絡資源快速雲化并進行硬體加速,向上接入作業系統。
是以這就是終點了嗎?
從阿裡雲已經交貨部署的成果來看,可以算是階段性終點了。
但如果放在算力攻堅的終局審視,或許還有兩個更宏大的時代級問題:
一是新型計算架構。整個産業都到了突破傳統馮·諾依曼架構存儲計算分離的性能瓶頸的關口,存算一體的新型大一統計算體系架構,被越來越多提及。
二是新型颠覆式計算形态,比如量子計算。
有意思的是,這兩大時代級問題,任何一個對于目前算力格局的影響,可能都會是核彈級的。
總的說來,隻有如此全局式透視,以終點看起點和過程,才能更本質地看清阿裡造芯、平頭哥模式的歸、去、來。
這背後是一家公司對于科技需求和科技發展挑戰的逢山開路,但同樣也是時代趨勢的具體映射和展現。
或許不用再贅述和論證了。
一個時代有一個時代的算力需求和挑戰,于是一個時代也就有一個時代的算力解決方案,進而一個時代就會有一個時代的造芯模式。
平頭哥模式,就是代表算力發展方向的代表性模式。
如何評價「平頭哥模式」?
最後,晶片全流程work,整個模式跑通,也意味着平頭哥出發時被寄予的期望和質疑,都到了可以重新評估的時候。
阿裡造芯以來,噱頭、熱點和形象工程之說,從未停止。
但随着倚天710年度性交卷,成為中國首個雲上大規模應用的自研CPU,此論可休矣。
而且倚天710創造的紀錄、展現的效用、開啟的範式,必将帶來造芯模式上更大的啟發和變革。
其次,過去幾年雲計算相關的格局洗牌猜想,同樣也到了有理有據的結辯時刻。
過去的市場佔有率是阿裡雲一騎絕塵,因為出發得早。接下來的格局也依然會是阿裡雲不可争鋒,因為基于晶片和底層軟硬一體架構的壁壘,無人能比,短時間内無人能及。
而且業内業外,一種讨論和新觀點也正在愈演愈烈:
新時代的科技競速,本質就是以算力為基建的競速。
下層基建決定了上層生态。底層基建決定了發展速度。
或許完全強調算力的作用,太過絕對。但誰也無法否認的是,算力正在成為科技發展中最基礎也最重要的生産要素。
而對于阿裡和阿裡雲來說,過去的積累和沉澱,在目前的時代級變革前顯得如此恰逢其時。
晶片、作業系統、資料庫、存儲、網絡和上層應用……擁有全棧完整自研軟硬體技術體系的雲計算提供商,中國目前僅此一家。
這是阿裡之幸,也是時代給予的機遇。科技變革的規律,通常都是哪裡有痛點需求,哪裡就有解決方案和應對之策。
但上一波科技浪潮湧動之時,中國玩家沒能參與其中,基礎半導體的研發和定義,也完全處于跟随狀态。
是以現在,終于終于有機會,可以在全新造芯範式下,從新起點出發,參與硬科技創新的研發和定義。
或許這一次,也真正有這樣有意思的機會——
源自中國文化裡的兵器,比如玄鐵、含光、倚天、屠龍……被更多人追問、了解和感歎。
— 完 —
量子位 QbitAI · 頭條号簽約
關注我們,第一時間獲知前沿科技動态