編輯|伊風

出品 | 51CTO技術棧（微信号：blog51cto）

谷歌終于出手了！我們将不再忍受大模型的“健忘症”。

TransformerFAM橫空出世，放話要讓大模型擁有無限記憶力！

話不多說，先來看看TransformerFAM的“療效”：

圖檔

大模型在處理長上下文任務時的性能得到了顯著提升！

上圖中，Isabelle、NarrativeQA等任務要求模型了解和處理大量上下文資訊，并對特定問題給出準确的回答或摘要。在所有任務中，FAM配置的模型都優于所有其他BSWA配置，并且能看到當超過某個點時，BSWA記憶段數量的增加已經無法繼續提升其記憶能力。

看來，在卷長文本、長對話的路上，FAM這顆大模型的“忘不了”确實有點東西。

Google 的研究人員介紹，FAM這種新穎的 Transformer 架構——Feedback Attention Memory，它利用回報循環使網絡能夠關注其自身的潛在表示，促進 Transformer 内部工作記憶的出現，并使其能夠處理無限長的序列。

簡單點說，這個政策有點像我們人工對抗大模型“失憶”的政策：每次和大模型對話前都再輸入一次prompt。隻不過FAM的做法更高階一些，在模型處理新的資料塊時，它會将之前處理過的資訊（即FAM）作為一個動态更新的上下文，再次整合到目前的處理過程中。

這樣就能很好地應對“愛忘事”的問題了。更妙的是，盡管引入了回報機制來維持長期的工作記憶，但FAM的設計旨在保持與預訓練模型的相容性，不需要額外的權重。是以理論上說，大模型的強大記憶力，沒有使其變得遲鈍或者消耗更多的算力資源。

那麼，這麼妙的TransformerFAM是如何被探索出來的？相關技術又是啥？

一、從挑戰中來，TransformerFAM為何能幫助大模型“記住更多”？

滑動視窗注意力（Sliding Window Attention, SWA）這個概念，對TransformerFAM的設計至關重要。

在傳統的Transformer模型中，自注意力（Self-Attention）的複雜度随着序列長度的增加而呈二次方增長，這限制了模型處理長序列的能力。

“在電影《記憶碎片》（2000 年）中，主角患有順行性遺忘症，這意味着他無法記住過去 10 分鐘發生的事情，但他的長期記憶是完好的，他不得不将重要資訊紋在身上以記住它們。這與目前大型語言模型（LLMs）的狀态類似，”論文中這樣寫道。

《記憶碎片》電影截圖，圖檔源于網絡

滑動視窗注意力（Sliding Window Attention），它是一種改進的注意力機制，用于處理長序列資料。它受到了計算機科學中滑動視窗技術（sliding window technique）的啟發。在處理自然語言處理（NLP）任務時，SWA允許模型在每個時間步驟上隻關注輸入序列的一個固定大小的視窗，而不是整個序列。是以，SWA的優點在于它可以顯著減少計算量。

圖檔

但是SWA有局限性，因為它的注意力範圍受限于視窗大小，這導緻模型無法考慮到視窗之外的重要資訊。

TransformerFAM通過添加回報激活，将上下文表示重新輸入到滑動視窗注意力的每個區塊中，進而實作了內建注意力、區塊級更新、資訊壓縮和全局上下文存儲。

在TransformerFAM中，改進通過回報循環實作。具體來說，模型在處理目前序列塊時，不僅關注目前視窗内的元素，還會将之前處理過的上下文資訊（即之前的“回報激活”）作為額外的輸入重新引入到注意力機制中。這樣，即使模型的注意力視窗在序列上滑動，它也能夠保持對之前資訊的記憶和了解。

于是，經過這番改進，TransformerFAM就給了LLMs能夠處理無限長度序列的潛力！

二、有了工作記憶的大模型，繼續向AGI邁進

TransformerFAM在研究中展現出了積極的前景，這将毫無疑問地提升AI在了解和生成長文本任務中的性能，例如處理文檔摘要、故事生成、問答等工作。

圖檔

同時，無論是智能助手還是情感陪伴，一個有無限記憶力的AI聽起來都更有吸引力。

有趣的是，TransformerFAM的設計靈感來源于生物學中的記憶機制，這一點與AGI追求的自然智能模拟不謀而合。這篇論文正是一個來自神經科學的概念——基于注意力的工作記憶——整合到深度學習領域的嘗試。

TransformerFAM通過回報循環為大模型引入了工作記憶，使得模型不僅能夠記住短期的資訊，還能夠在長期序列中維持對關鍵資訊的記憶。

通過大膽的想象，研究人員在現實世界與抽象概念間假設起橋梁。随着TransformerFAM這樣的創新成果繼續湧現出來，技術的瓶頸會一次次被突破，一個更加智能、互聯的未來正向我們徐徐地展開畫卷。

來源： 51CTO技術棧

谷歌出手整頓大模型“健忘症”！回報機制幫你“更新”上下文

一、從挑戰中來，TransformerFAM為何能幫助大模型“記住更多”？

二、有了工作記憶的大模型，繼續向AGI邁進

繼續閱讀

AIGC：我太“男”了？——大模型中的性别偏差問題 | YEF2024

大模型時代AI Agent的挑戰、優化與落地之道 | YEF2024

EIGEN代币經濟模型公布，第一季 Stakedrop 啟動

iPhone 16 系列手機模型曝光，外觀基本确定

大模型催生搜尋行業變革機遇，産品百花齊放效果幾何？

自我提升人生思維模型

【國中實體】《浮力》常考重難模型

OpenAI秘密上線神秘模型，疑似ChatGPT4.5進行公開測試

中考數學常考幾何導角問題9種模型總結大全

五力模型，提升個人核心能力

卷瘋了！Meta AI釋出了最強開源大模型Llama 3，提供了8B和70B版?

怎麼用AI大模型解決實際問題？

大模型時代，資料中台現在過氣了嗎？

軒轅大模型的實踐與應用 | ML-Summit 2024

移動UI大模型問世，蘋果iPhone或迎更新新周期

科大訊飛不講大模型的“性感故事”