面向超長上下文，大語言模型如何優化架構，這篇綜述一網打盡了

機器之心報道

編輯：rome rome

作者重點關注了基于 Transformer 的 LLM 模型體系結構在從預訓練到推理的所有階段中優化長上下文能力的進展。

ChatGPT 的誕生，讓基于 Transformer 的大型語言模型 (LLM) 為通用人工智能（AGI）鋪開了一條革命性的道路，并在知識庫、人機互動、機器人等多個領域得到應用。然而，目前存在一個普遍的限制：由于資源受限，目前大多 LLM 主要是在較短的文本上進行預訓練，導緻它們在較長上下文方面的表現較差，而長上下文在現實世界的環境中是更加常見的。

最近的一篇綜述論文對此進行了全面的調研，作者重點關注了基于 Transformer 的 LLM 模型體系結構在從預訓練到推理的所有階段中優化長上下文能力的進展。

論文連結：https://arxiv.org/pdf/2311.12351.pdf

論文首先分析了使用目前基于 Transformer 的模型處理長上下文輸入和輸出的問題。然後，提供了一個全面的分類體系，以指導 Transformer 架構更新的領域，來解決這些問題。作者對長上下文 LLM 廣泛使用的評估需求進行了調研，包括資料集、度量标準和基準模型，以及一些令人驚奇的優化工具包，如庫、系統和編譯器，以增強 LLM 在不同階段的效率和功效。最後，文章進一步讨論了這一領域未來研究的主要挑戰和潛在方向。作者還建立了一個倉庫，彙總了相關文獻，并提供實時更新 https://github.com/Strivin0311/long-llms-learning。

綜述概覽

文章從基本的語言模組化目标 (第 2.1 節) 開始，内容涵蓋從典型的模組化階段到在基于 Transformer 的僅解碼 LLM 中找到的關鍵架構子產品，如圖 1 (a) 所示。随後，作者對 LLM 在遇到擴充上下文視窗時的架構限制進行了簡要分析 (第 2.2 節)。最後提出了一個全面的方法論分類法 (第 2.3 節)，旨在通過架構創新增強 LLM 的長上下文能力 (見圖 1 (b))。這個分類法作為文章的第 3、4、5、6、7 節的指南。

圖 1：文章核心概述：(a) 現代基于 Transformer 的僅解碼 LLMs 的典型架構解剖圖，右上角有圖例；(b) 用于增強 Transformer 架構子產品的方法論分類法（與 (a) 相對應的顔色）：高效注意力（注意力核心的子子產品），長期記憶（針對 KV 緩存），外推性 PEs（針對位置嵌入子產品），上下文處理（與上下文預 / 後處理有關）和雜項（整個解碼器塊以及損失子產品通用）。

長上下文，目前有哪些難點待突破？

注意力複雜度。在典型情況下 L ≫ d，MHA 的計算複雜性可以簡潔總結如下：它涉及 O (L 2d) 的時間複雜度，包括 QKV 投影的 O (Ld2)，計算 P 的 O (L 2d)，通過 softmax 運算擷取 A 的 O (L 2 )，A 與 V 相乘的 O (L 2d)，以及輸出投影 O 的 O (Ld2)。它還産生 O (L 2) 的空間複雜度，包括 Q、K、V、O 的嵌入的 O (Ld)，以及額外的 O (L 2) 緩沖區用于存儲權重 P 和 A。是以，随着序列長度的增加，時間和空間計算成本都呈二次增加，這對于訓練和推理可能都是繁重的。

上下文記憶。LLM 缺乏顯式的記憶機制，完全依賴 KV 緩存來存儲清單中所有先前 token 的表示。這種設計一旦在一個調用中完成查詢，Transformer 在後續的調用中不會保留或召回任何先前的狀态或序列，除非整個曆史記錄逐個 token 重新加載到 KV 緩存中。是以，Transformer 在每個調用中僅具有一個上下文工作記憶，而不是像長短時記憶 (LSTM) 這樣的内在記憶機制。這種無狀态性在并行性方面提供了計算優勢，但在聊天機器人應用等需要長期記憶保留的任務中的挑戰很明顯。

最大長度限制。在訓練階段，工程師通常需要确定一個關鍵的超參數 max-length，本文中表示為 L_max。這個超參數代表了批次中任何訓練樣本的序列長度的上限，通常根據可用的計算資源設定為 1k、2k 或 4k，以避免在 GPU 上發生記憶體溢出 (OOM) 錯誤。在推理階段，LLM 的服務提供者還必須限制使用者提示的長度或自動截斷它們以與預定義的 L_max 對齊，即使推理資源通常比訓練階段更豐富。需要注意的是 Transformer 的任何子產品在本質上都不需要這樣的限制，因為所有學習的權重僅依賴于次元大小。是以，理論上隻要資源足夠，Transformer 可以處理任意長度的序列。然而，目前的語言模型在處理超過 L_max 的輸入序列時通常表現出明顯的性能下降，經常導緻重複和不切實際的輸出。

改進的新方法

對于上述限制，有多種改進方法可以探索，例如在訓練過程中減少注意力複雜性、設計高效的記憶機制，以及增強長度外推的能力，該模型在短序列上進行訓練，但在推理過程中對更長的序列進行測試。

是以，論文全面回顧了緻力于改進 LLM 長上下文能力的各個階段的最新方法，并将它們組織成一個統一的分類法，如圖 1 (b) 所示。具體而言，這些方法被分為五個主要的類别，如下：

高效注意力 (論文第 3 節)：這些方法側重于實作具有降低計算要求的高效注意力機制，甚至實作了線性複雜度。通過這樣做，它們能夠通過直接在預訓練階段增加 L_max 來推進 LLM 在推理期間的有效上下文長度邊界。

長期記憶 (論文第 4 節)：為了解決上下文工作記憶的局限性，一些方法旨在設計明确的記憶機制，彌補 LLM 中缺乏高效和有效的長期記憶的不足。

外推性 PEs (論文第 5 節)：最新的研究緻力于通過改進現有位置編碼方案的外推性能來增強 LLM 的長度泛化能力。

上下文處理 (論文第 6 節)：除了增強特定低級 Transformer 子產品的方法外，一些方法涉及對現成的 LLM 與額外的上下文預 / 後處理。這些方法確定每次調用 LLM 時輸入始終滿足最大長度要求，并通過引入多個調用開銷打破上下文視窗限制。

雜項 (論文第 7 節)：探讨了各種一般且有價值的方法，這些方法不容易歸入前面四類，為推進 LLM 的長上下文能力提供了更廣泛的視角。

未來方向

論文的第 3、4、5、6 節中讨論了該領域取得的顯著進展，但仍然存在一些挑戰。下面是對一些關鍵挑戰的探讨以及未來在增強基于 Transformer 的 LLM 的長上下文能力方面進行研究和開發的潛在方向，重點關注架構的增強。

注意力 Trade-off。在第 3 節，作者探讨了高效注意方法往往涉及在保持全尺度注意力依賴性（例如局部注意力）或通過近似注意力提高注意力分數精度以減輕标準注意核心的計算需求之間的微妙權衡。然而，随着上下文的延長，話語結構和互相關聯的資訊變得越來越複雜，需要捕捉全局、長距離的依賴性，同時保持精确的相關性。

解決這一挑戰需要在計算效率和盡可能保留注意模式精度之間找到最佳平衡。是以，在長上下文 LLM 領域，這仍然是一個持續追求的目标。最近的創新如 Flash Attention，探索了算法級别之外的 IO 感覺解決方案，極大地提高了運作時和記憶開銷的效率，而不會喪失注意精度。這是在實際應用中解決這個問題的一個激動人心的潛在途徑。此外，可以探索在「即插即用」替代方案中內建先前的高效政策，利用強大的 GPU 核心程式設計工具 (如 CUDA) 或更輕量級的 Triton。

記憶效果和效率。正如在文章第 2.1、2.2 節中前面讨論的，作者已經概述了由于缺乏明确的記憶機制，僅依賴上下文内工作記憶以及在延長上下文互動期間 KV 緩存記憶消耗顯著增加而産生的限制。這些挑戰共同強調了在基于 Transformer 的 LLM 領域需要更有效和高效的記憶機制。雖然第 4 節中引入了各種長期記憶機制，但它們受到其複雜啟發式設計引入的額外記憶開銷的限制，是以随着時間的推移可能導緻性能下降。為了解決這一挑戰，研究人員可以從最近的進展中汲取靈感，比如 Paged Attention，研發更有效的記憶存儲政策，增強讀 / 寫吞吐量。

長度外推挖掘。在第 5 節中，作者對與基于 Transformer 的模型的長度外推相關的挑戰進行了徹底的分析，重點關注了位置嵌入的普遍設計。文章提供了對最近突破的全面概述，特别是應用于 RoPE 的擴充政策，作者相信這在解決外推限制方面具有重要的前景。值得注意的是，這些進步往往依賴于對複雜高維位置嵌入屬性的簡化觀察，并包含簡單的啟發式調整。作者對使用高維嵌入來模組化序列性的理論基礎提出質疑，并探索在這些啟發式設計的指導下引導具有許多超參數的可學習嵌入的潛在複蘇。作者認為未來的研究應該深入探讨這一領域，尤其是在 Transformer 設定下為模組化序列性開發健壯的理論架構方面，比如 CLEX 所實作的内容。

特定但通用目标。前文已經為長文本模組化量身定制的具體目标做了讨論，但值得注意的是，許多目标僅限于某些類型的任務，或者僅與 MLM 目标相容，而不是如今更普遍的 CLM 目标。這突顯了需要特定但普遍适用的因果語言模組化目标，可以在模型訓練的早期有效捕捉長距離依賴性。通過與先前提到的目标相一緻，這是可能實作的。

可靠的度量需求。在評估度量方面，文章的第 8 節中研究了許多可選項。根據在評估中的先前經驗，常用的度量，如 ROUGE 分數，與人類判斷分數存在顯著差異，後者可以看作是「神谕」。随着 LLM 在現實世界場景中的快速部署，越來越迫切地需要更可靠的度量來評估長上下文能力，特别是在生成性任務中，其中精确的真實性難以捉摸。一個有希望的途徑涉及利用最先進的 LLM (如 GPT4) 的魯棒性作為人類評審的替代，盡管相關的高成本仍然在更廣泛地在研究界中采用方面帶來挑戰。

更多研究細節，可參見原論文。

面向超長上下文，大語言模型如何優化架構，這篇綜述一網打盡了

繼續閱讀

海拔3200米的無影雲教室：雪山下的孩子遇見AI大模型

小鑫分享：元胞自動機模型

男子偷走800元手機模型被拘留

隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？

揭秘記憶之謎：艾賓浩斯遺忘曲線與思維模型撲克牌法助你成長飛躍

GPU之後，NPU再成标配，手機、PC如何承載AI大模型？

搶先看！位元組跳動破天荒！大模型驚豔亮相，價格低至99%！

3900 萬人圍觀雷軍直播試駕；馬斯克招募第二名腦機實驗患者；DeepMind 推出大模型危險性評估架構

從“天價”到“骨折價”，大模型要變天了

大模型想落地，先讓大家用得起

與億級使用者直接互動第三方AI大模型加速接入微網誌生态

訊飛星火大模型賦能，開啟虛拟人“全新意識”

當開源遇到大模型，将産生怎樣的變革？

傳清華系大模型公司高層變動

58同城孫啟明：生活服務垂類大模型怎麼搭？自研+開源兩手抓

AI天玑全量推送國内首個端到端大模型量産上車小鵬開啟AI智駕時代