天天看點

技術評論 FPGA加速器支撐ChatGPT類大語言模型創新

作者:電子工程世界

近年來,大型語言模型(Large Language Models,LLM)徹底改變了自然語言處理領域,使機器能夠生成類似人類的文本并進行有意義的對話。這些模型,例如OpenAI的GPT,擁有驚人的語言了解和生成能力。它們可以被用于廣泛的自然語言處理任務,包括文本生成、翻譯、自動摘要、情緒分析等。

大語言模型通常是基于深度學習技術來建構,特别是廣泛使用了transformer架構。Transformer是一類神經網絡模型,擅長捕捉語言序列中的遠關聯關系,這使得它們非常适合于語言了解和生成任務。訓練一種大語言模型的方法是将模型暴露給大量文本資料中,這些文本資料通常來源于書籍、網站和其它文本資源。該模型學會了預測句子中的下一個單詞,或者根據它所看到的上下文填充缺失的單詞。通過這個過程,它獲得了關于文法、句法的知識,甚至是一定程度的世界知識。

與大語言模型相關的主要挑戰之一是其巨大的計算和記憶體需求。這些模型由數十億個參數組成,需要強大的硬體和大量的計算資源來有效地訓練和部署它們,正如Nishant Thakur在2023年3月于領英釋出的文章《ChatGPT背後令人難以置信的處理能力和成本:建構終極AI聊天機器人需要什麼?》中所讨論的。資源有限的組織機構和研究人員在充分利用這些模型的潛力方面經常遇到瓶頸,因為雲端需要大量的處理能力或資金。此外,在生成響應時,為建立适當的符号、單詞或單詞子部分,上下文長度會急劇增長,對記憶體和計算資源産生更多的需求。

這些計算挑戰導緻更高的延遲,這使得大語言模型的采用變得更加困難,并且不是實時的,是以不那麼自然。在這篇部落格中,我們将深入研究大語言模型遇到的困難,并探索潛在的解決方案,這些解決方案可以為其增強的可用性和可靠性鋪平道路。

大語言模型的加速

大語言模型的建構通常需要一個大規模的系統來執行該模型,這個模型會持續變大,在其發展到一定程度後,僅靠在CPU上的運作就不再具有成本、功耗或延遲的優勢了。使用GPU或FPGA這樣的加速器可顯著提高計算能效、大幅降低系統延遲,并以更小的規模實作更高的計算水準。雖然GPU無疑正在成為硬體加速的标準選擇,主要是因為它具有的可通路性和易于程式設計特性;實際上,在低延遲方面,FPGA架構比GPU有更卓越的性能。

由于本質上GPU是采用扭曲鎖定(warp-locked)架構,跨多個核心并行執行超過32個SIMT線程,是以它們通常也需要批量處理大量資料,以嘗試和偏移warp-locked架構并保持流水線被充滿。這等同于更大的延遲和更多系統記憶體的需求。同時,FPGA可建構自定義資料路徑來同時在多個資料子產品上執行多個不同的指令,這意味着它可以非常有效地運作,一直到批量大小為1,這是實時的,延遲要低得多,同時最大限度地減少外部存儲器需求。是以,與其他競争性架構相比,FPGA能夠顯著提高其TOPs的使用率——随着系統規模擴充到ChatGPT系統大小時,這種性能差距隻會繼續增加。

當系統規模擴充到需要超過8個處理器件時(GPT3的訓練需要使用10,000個GPU),用Achronix的FPGA來執行大語言模型可在吞吐量和延遲方面勝過GPU。如果模型可以使用INT8精度,那麼使用GPT-20B作為參考的Achronix FPGA則具有更大的優勢,如下表所示。這些資料說明使用FPGA是有優勢的,因為GPU需要較長的傳遞時間(高端GPU超過一年)、得到的使用者支援可能也很少,并且比FPGA貴得多(每塊GPU的成本可能超過10,000美元)。

技術評論 FPGA加速器支撐ChatGPT類大語言模型創新

Speedster7t FPGA晶片與GPU的性能比較

将大語言模型映射到Achronix的FPGA加速器上

Achronix的Speedster7t FPGA具有一個獨特的架構,使其非常适合這些類型的模型。首先,它有一個硬二維片上網絡(2D NoC),解決了整個器件的資料傳輸以及輸入輸出。此外,它使用了帶有緊耦合RAM的機器學習處理器(MLP),以便在計算之間實作高效的結果重用。最後,與GPU類似但與其他FPGA不同,Achronix的Speedster7t FPGA具有八組高效的GDDR6存儲器IP,可支援更高的帶寬,并且能夠以4 Tbps的速度加載參數。

由于這些系統需要可擴充性,FPGA可以實作各種标準接口,以将加速卡互連在一起,并可實作卡之間無縫地傳輸資料。Achronix的Speedster7t AC7t1500器件具有32個100 Gbps的SerDes通道,不需要諸如NVLink這樣的專有且成本高昂的解決方案。

大語言模型的未來:更新為增強型語言了解方案及領域特定方案

由于這些大語言模型需要巨大的規模才能以最小的延遲影響來執行訓練和推理,模型的複雜性将繼續增加,這将使得不斷發展的語言了解、生成,甚至預測能力具有令人難以置信的準确性。雖然目前許多GPT類模型都是通用的,很可能接下來會出現針對某些領域,如醫學、法律、工程或金融等而訓練的專用模型。總之,在很長一段時間内,這些系統将協助人類專家處理由人工智能系統處理的更多平凡的任務,并為提供解決方案建議或協助完成創造性的任務。

繼續閱讀