天天看點

計算機架構的新黃金時代,為什麼到了2021年還沒有開始?

4 月 21 日,英偉達釋出了 A30 和 A10 GPU 系列 GPU,其安培(Ampere)架構、最新制程的性能和軟硬體體系加持,為衆多科技公司在 AI 推理和訓練時帶來了新的選擇。該公司預計在今年夏季,新款晶片即将會出現在衆多公司的雲伺服器中。

對于熟悉機器學習領域的人們來說,每隔一兩年推出的新一代 GPU,是他們最為關注的新動向。英偉達的旗艦晶片算力也總是其它晶片創業公司用來比較的标杆。

但對那些希望尋找人工智能最合适算力的研究者們來說,GPU 因為「過于通用」,常常會被認為并非 AI 的最終解決方案。但迄今為止,英偉達 GPU 仍然占據市場的主流。在 GPU 引領深度學習技術爆發之後,AI 晶片領域還會出現新的變化嗎?

和 AI 算法應該怎麼寫一樣,人們對于晶片應該怎麼造的思考其實一直都沒有停止,晶片領域裡下一個大方向可能在于「特定領域的體系結構(DSA)」。

計算機架構傳奇人物、2017 年圖靈獎獲得者 John Hennessy 和 David Patterson 在 2019 年發表于 ACM 雜志上的文章

《計算機架構的新黃金時代》

中曾提出:當摩爾定律不再适用之後,一種更加以硬體為中心的設計思路——針對特定問題和領域的架構 DSA 将會展現實力。這是一種特定領域的可程式設計處理器,它仍是圖靈完備的,但針對特定類别的應用進行了定制。

計算機架構的新黃金時代,為什麼到了2021年還沒有開始?

John L. Hennessy 和 David A. Patterson,兩人合著有《計算機體系結構:量化研究方法》一書。

從定義上來看,DSA 與專用內建電路 ASIC 不同,後者僅适用于單一功能,運作其上的代碼很難進行修改。DSA 闆卡通常被稱為加速器,因為與在通用 CPU 上執行整個應用程式相比,它們可以加速某些應用程式。此外,DSA 可以實作更好的性能,因為它們更貼近應用的實際需求。DSA 的例子包括最常見的圖形加速單元(即 GPU),用于深度學習的神經網絡處理器,以及軟體定義處理器(SDN)。在特定領域的應用中,DSA 的效率更高,能耗更低。

通常,适用于 AI 推理的 DSA 處理器無法應用于高性能通用計算、光線渲染等任務,但又不像 ASIC 那樣隻能勝任很少的一些固化算法任務。在人工智能的任務上,DPU 晶片可以有很高的通用性,既支援 NLP,又支援計算機視覺和語音的任務處理,還可以通過 TVM 等工具覆寫各種機器學習架構。

如果說體系架構大師展望的技術方案是 DSA 成立的充分條件,那麼科技公司對于 AI 算力的需求就是 DSA 晶片形成突破的必要因素。

目前,想要通過各種方法來建構一塊 GPU,與英偉達實作相似的性能仍然非常困難。但在以資料中心為核心的網際網路新時代,國内頭部網際網路公司的規模為整個行業帶來了前所未有的 AI 落地場景。如果能夠準确找到落地需求,建構高效的 AI 加速器,不僅可以大幅提升機器學習的價值,或許還能催生出潛在的新市場。

在這種情況下,能夠搞清應用方向就成為了 DSA 能否成功的關鍵。如今科技公司需要深度學習推斷的業務包括推薦系統、内容稽核、AI 教育、人工智能客服、圖文翻譯等各種方面。圍繞這些業務,所有網際網路廠商都産生了大量算力需求。

對于一家半導體公司來說,要想打造一塊能夠完成這些任務的晶片,其設計要符合客戶應用場景、底層需求,具備高效的實作方式,同時也要在傳遞成本、維護服務、更新疊代的速度、軟體友好的程度,甚至銷售政策上具備競争力。

體系結構之外,另一個契機在于指令集,RISC-V 興起也在讓晶片領域發生着變化,它的子產品化和可擴充性完美地比對 DSA 靈活高效的技術需求。

誕生于 2010 年的 RISC-V 是一個開源的精簡指令集架構,适用于建立微處理器和微控制器。最早由美國加州大學伯克利分校(UC Berkeley)的 Krste Asanovic 教授、Andrew Waterman 和 Yunsup Lee 等開發人員于 2010 年提出,又得到了計算機體系結構大師 David Patterson 的支援。這個架構允許開發者免費開發和使用,包括直接在晶片上進行商業化實作。

今年 1 月,外媒報道稱頂級晶片設計大師 Jim Keller 加入了初創公司 Tenstorrent,擔任 CTO 以及董事會成員。

計算機架構的新黃金時代,為什麼到了2021年還沒有開始?

據了解,Tenstorrent 設計的是高性能 AI 訓練和推理,異構架構 AI SoC。該公司設計了針對機器學習優化的 Tensix 處理器核心,為了運作傳統的工作負載,Tenstorrent 的 SoC 使用 SiFive 的新型通用智能 X280 核心,而 X280 是一個 64 位的 RISC-V 核心,內建了 512 位寬的 RISC-V 矢量指令擴充(RVV)。

無獨有偶,美國的晶片設計公司 Pixilica 已與 RV64X 團隊合作,提出了一套新的圖形指令集,旨在融合 CPU-GPU ISA,并将其用于 3D 圖形和媒體處理,進而為 FPGA 建立了開源參考實作。Europena 工具開發商 Codasip 的進階市場總監 Roddy Urquhart 表示,這是 RISC-V 生态系統的優勢之一:「如果要建立特定于領域的處理器,關鍵任務之一就是選擇符合軟體需求的指令集架構(ISA)。」

「有些公司選擇從頭開始建立指令集,但是如果你有這樣的 ISA,則可能要付出移植軟體的代價。現在,RISC-V 開放式的 ISA 可以提供一個很好的起點和一個軟體生态系統,」Urquhart 表示。RISC-V ISA 以子產品化的方式設計,使處理器設計人員不僅可以添加任何标準擴充,還可以建立自己的自定義指令,同時保持完整的 RISC-V 相容性。

「為特定領域的處理器選擇了起點,然後有必要弄清楚需要哪些特殊指令來滿足你的計算要求。這需要仔細分析你需要在處理器核心上運作的軟體。概要分析工具可以識别計算熱點,一旦了解,設計人員就可以建立自定義指令來解決這些熱點。」

雖然基于 Arm 架構設計的處理器已出現在幾乎所有智能手機及數十億電子裝置中,但越來越多人在将目光轉向 RISC-V。Linux 的主要開發者 Arnd Bermann 就認為,到 2030 年我們将看到三種體系結構:Arm、RISC-V 和 X86 占據市場大部分份額。然而對于 DSA 而言,顯然 RISC-V 擁有巨大的優勢。

科技公司自造晶片是不是最合理的方式?一些公司已經提出了深度結合自身業務,并與軟體體系綁定,可以進行 AI 模型訓練的晶片,包括亞馬遜的 Inferentia 和 Trainium、谷歌 TPU 等等。但這些算力僅限于對于各家公司自有業務體系進行特化,面向的範圍有限。

從一些大廠最近的行動中,我們可以看出人們的思考變化:百度等公司的 AI 晶片業務已經獨立,而騰訊、位元組跳動等公司則選擇了投資創業公司的方式,希望能夠培養出面向廣泛市場的新體系。

自 2010 年左右深度學習技術大發展至今,我們見證過寒武紀、昇騰等晶片橫空出世,又被谷歌、亞馬遜的技術能力所驚豔,但在無盡的算力需求下,國内 AI 晶片爆發的時代似乎依然還沒有到來。

但在最近,指令集、體系架構和人工智能應用的落地已經讓情況發生了變化。随着位元組跳動等投資 AI 晶片創業公司快速流片成功,專屬推理晶片的應用獲得良好效果,在科技領域裡發展 DSA 晶片的新風向正在出現。

在晶片産品生命的周期中,如果有一家創業公司可以更加了解場景,定義出最合适的方案,最快地做出實作,就可以獲得相對領先的位置。同時,如果這種新的機制催生出了足夠高效的算力,科技公司的開發者們也可以創造出更多的 AI 應用。

根據目前的估算,國内市場每年會出現 20-30 萬片的 AI 推理計算版卡需求。對于國内的創業者來說,這或許會是一個前所未有的發展機會,實力強大的工程師團隊将會在新的競争過程中脫穎而出。

繼續閱讀