天天看點

阿裡雲峰會現場探班,“一雲多芯”強在哪?

“韓信點兵,多多益善”,目前雲平台能管理的節點已經越來越多了,但是跨CPU架構的不同節點進行統一管理還是一個業界的難題,這幾天筆者現在參加了阿裡雲峰會,個人認為阿裡雲智能總裁張建峰釋出了“一雲多芯”是今年以來雲計算發展史上最具有革命性的技術之一,在“一雲多芯”的模式下,飛天雲作業系統可以将伺服器晶片、專用晶片等硬體封裝成标準算力,無論底層是X86、ARM還是RISC-V,給客戶提供的都是标準的、高品質的雲計算服務。

阿裡雲峰會現場探班,“一雲多芯”強在哪?

以往雲作業系統隻能對一種架構的CPU進行硬體細節屏蔽,比如英特爾X86不同CPU的型号可以組成一個叢集,雲上的租戶在使用雲服務時不會感受到執行個體到底使用什麼型号的CPU。但是如果你的雲平台上又有X86又有ARM,那麼就隻能用兩朵雲分開管了。之前以X86為代表的CISC處理器主攻伺服器和雲計算機市場,而以ARM、RISC-V為代表RISC處理器主攻移動與物聯網終端,兩者基本井水不犯河水的。不過最近形勢發生了變化。

開啟新大門的RISC

英偉達在發起收購ARM之後,如期在4月的新品釋出會大會上如期拿出了首款CPU晶片Grace, 由于ARM使用RISC風格的精簡指令集, ARM核心在指令預測等方面同天然比X86更有優勢,能耗也比X86更低。當然這些都是ARM相對于X86的傳統優勢,本次Grace最大的創新點在于把CPU與GPU之間的通信速度提升了近10倍。根據黃仁勳的說法,“這是一萬名工程人員曆經幾年的研發成果,旨在滿足目前世界最先進應用程式的計算需求,其具備的計算性能和吞吐速率是以往任何架構所無法比拟的。”

從最新的AI發展趨勢來看,最新的人工智能模型對于算力的要求往往都是非常高,比如那個可以自動寫代碼的GPT-3其參數規模突破了1000億,阿裡摩院的發部的GPT-3中文版本PLUG參數規模也旗鼓相當,而GPT-3的變種可以将文字描述轉化為圖像的跨模态生成模型DALL.E,其整個模型的參數數量更是超過 1500 億,達。不少科學家直接指出,越大的模型往往表現更好,擴大規模可能仍然是實作更好性能的方式。用黃仁勳在釋出會上的話來說“三年間大規模預訓練模型的參數量增加了3000倍。我們估計在 2023 年會出現 100 萬億參數的模型。”可以說随着模型越來越大,普通的創業公司隻有通過AI雲才能使用到最新、最好的AI模型,是以筆者個人認為N廠Grace所先把的技術路線完全正确。

令人難以割舍的X86

但是英特爾最新釋出的至強三代Ice Lake晶片中的安全計算指令集SGX也同樣令人難以割舍,多方安全計算對于筆者這種長年在銀行業工作的人來看絕對是面向未來的黑科技,所謂多方安全計算的應用場景可以百萬富翁問題來表述,假如兩個百萬富翁街頭邂逅,他們都想炫一下富,比比誰更有錢,但是出于隐私,都不想讓對方知道自己到底擁有多少财富,如何在不借助第三方的情況下,讓他們知道彼此之間到底誰更有錢?針對這個問題,在上世紀80年代,清華大學的姚期智院士提出了解決方案,并是以擷取了圖靈獎,從理論層面證明了多方可信計算問題的可行性。

但在實踐層面多方安全計算依然困擾業界,尤其在筆者所在的金融行業更是如此,通常來說金融機構都有很多非常具有價值的資料,但是怎麼發揮資料的價值卻讓各大銀行犯了難,就算有宇宙行之稱的工商銀行,市場占有率也不到10%,單靠他們一家的資料訓練不出特别好的模型,而把各大銀行的資料都拿出來共享吧,又有客戶隐私洩漏的風險。如何在不讓其它參與者看到真實資料的情況下進行計算,把姚期智院士的解決方案落地,就成了一個難題。

在這個經典問題之下,目前隻有藍象智聯的GAIA CUBE等少數幾個平台能夠做到讓資料在不洩露的情況下聯合多方的資料進行聯合計算并得到明文計算結果,實作資料的所有權和資料使用權的分離,而且這還都是基于區塊鍊軟體技術機制保證安全可信。

而英特爾至強三代支援的SGX則從硬體角度徹底讓使用者打消顧慮,安全計算實際是給計算機加了一個安全密室,即使擁有最高權限的特權管理者也不能進入安全密室,更無法在安全密室前布放監控。安全密室與外界的一切互動全部要經過加密并進行完整性校驗。

其實英特爾在幾年前就已經實作了SGX技術,但當時SGX能建立的記憶體空間隻有128M,而目前的AI機器學習模型動轍要上百M,大的甚至要幾十上百個G,當時的SGX根本放不下這樣的模型,無法在多方安全計算中使用。不過這次Ice Lake-SP最高可以支援1T的安全空間,這種程度的提升将全面拓展SGX的應用場景,比如騰訊就聯合北京微芯邊緣計算和區塊鍊研究院,将區塊鍊與SGX結合,保障資料安全性,做到最終資料可用不可見,進而打破目前各機構邊緣之間的資料孤島,發揮資料的最大價值。

一統江湖的一雲多芯

那麼現在的問題是,最終使用者的需求往往是既想要英偉達ARM晶片的AI推理能力,又想進行X86的安全計算能力,如果按照以前的方案就必須要進行多雲協同了,必須為ARM叢集和X86叢集分别建設存儲與網絡的配套裝置整個雲體系才能正常運轉,不但會浪費一定資源還會帶來多雲協作的管理問題,而阿裡雲最新的一雲多芯的方案,其實就是用一套雲作業系統來管理不同架構的硬體伺服器叢集,它最大的特點就是可以将不同架構CPU的算力标準化,進而解決從根本上解決不同類型CPU共存所帶來的多雲管理問題,當然我們看到後續阿裡雲還會繼續前行,真正做到從雲作業系統的底層将不同CPU的算力标準化出來,也就是說如果除了某些特定的如安全計算等與具體架構綁定太深的需求以外,其餘需求均可以在雲的标準化資源池内得到滿足。

繼續閱讀