天天看點

ReadAgent:Google開發的一個模仿人類閱讀方式的閱讀代理

作者:AI觀察室

ReadAgent:Google開發的一個模仿人類閱讀方式的閱讀代理

它可以處理非常長的上下文

ReadAgent采用人類閱讀長文本時遺忘具體資訊但保留模糊要點資訊的政策,來提高處理和了解長文本的效率。

就是當你面對一本厚厚的書時,你可能會隻記住重要的資訊,而忽略次要内容,當你需要詳細資訊時再回頭查找。

ReadAgent就是通過模拟這種人類的閱讀方式來工作的。

功能特點:

1、記住關鍵資訊:就像人們閱讀時傾向于記住故事的大概情節而忘記具體的細節,ReadAgent也會把長文本中的主要資訊轉化為“要點記憶”。這讓它能夠保持對全文的大緻了解,即使不記得每一個詞。

2、智能存儲和壓縮:ReadAgent會決定哪些資訊是重要的,應該被記住,然後把這些資訊存儲為簡短的記憶片段。這就像是把一篇長文章總結成幾句話,便于快速回顧和了解。

3、主動查找資訊:當需要更多細節來完成一個任務(比如回答一個問題)時,ReadAgent會像人類一樣回到原文去尋找答案。這讓它能夠有效地處理和回應複雜的查詢。

4、了解長文本:ReadAgent在閱讀長篇幅的文檔時表現得非常出色,能夠了解和記憶比普通閱讀工具更多的資訊。這使得它在了解長文章或書籍時更為高效。

在處理長文檔閱讀了解任務時,ReadAgent展現出優越的性能。它通過使用要點記憶和原始長文本,能夠在保持高效了解的同時,擴大有效上下文視窗3到20倍。

5、零次學習檢索:ReadAgent實作了一種基于上下文化要點記憶的檢索方式,通過零次學習LLM提示進行推理,直接利用LLM的語言了解強大性和靈活性來決定檢索哪些文檔。這種檢索方式非常适合處理密集相關的長文檔片段,如一系列書籍或對話曆史。

也就是它不僅僅是通過關鍵詞搜尋,而是通過了解文本的大意來決定哪些内容是相關的。這就好比你不需要告訴它具體去哪裡找答案,它就能明白你需要什麼,并找到相關的資訊。

6、适應不同場景:除了閱讀文本,ReadAgent還能适應如網頁導航這樣的複雜任務,表現出靈活性和有效性。這意味着它不僅能幫你了解長文章,還能在複雜的網站中找到需要的資訊。

舉例解釋:

假設你正在準備一篇關于氣候變化的報告,需要閱讀和了解大量的研究論文、報告和文章。這裡有成千上萬的頁面,充滿了複雜的資料、理論和論點。這就是一個ReadAgent大顯身手的完美場景。

記住關鍵資訊

首先,當你通過ReadAgent閱讀這些長文本時,它就像是在為你做筆記,但不是記下每一個細節。相反,它抓取并儲存關鍵資訊的要點,比如全球平均溫度上升的速率,重要的氣候變化趨勢,或者國際社會的應對措施。這樣,即使你不記得每一篇論文的每一個資料點,你也能快速擷取到你需要的主要資訊。

智能存儲和壓縮

接下來,假設你讀過一篇詳細讨論北極冰蓋融化影響的研究。ReadAgent會将這篇文章的核心資訊轉換成簡短的要點記憶,比如“北極冰蓋加速融化,對全球海平面上升和生物多樣性産生重大影響”。這就像是将整篇文章的精華壓縮成一句話,讓你随時可以快速回顧。

主動查找資訊

現在,假設你在寫報告時需要引用關于特定年份北極冰蓋融化速度的資料。你可能不記得具體的數字,但ReadAgent記得它在哪篇文章中。于是,它能夠幫你迅速定位到那篇論文,并找到确切的資料和引用,就好像你有一個随時待命的研究助手。

了解長文本和找到需要的内容

在整個過程中,ReadAgent不僅幫你摘錄和記住了海量文本中的重要資訊,還能在你需要深入細節時迅速找到答案。這種能力特别适用于需要跨文檔查找和對比不同來源資訊時,比如在比較不同科學團隊對氣候變化影響的預測時。

适應不同場景

最後,如果你需要在網上搜尋最新的氣候變化新聞或政策聲明來更新你的報告,ReadAgent同樣能派上用場。它能幫助你導航通過複雜的網站結構,快速找到并了解相關資訊,就像有一個能指引你直達需要内容的導航系統。

通過這個例子,你可以看到ReadAgent如何使得處理和了解大量複雜文本變得更加高效和簡單,讓你能夠專注于創造性的思考和寫作,而不是被繁瑣的資訊檢索和記憶負擔所拖累。

技術原理:

1、要點記憶建構:

分頁(Episode Pagination):ReadAgent在閱讀長文本時會決定哪些内容應一起存儲在記憶片段中,即選擇暫停閱讀的合适位置。通過提示LLM從文本中選擇自然的段落分隔點,每個暫停點之間的内容視為一個片段(頁)。

記憶壓縮(Memory Gisting):對于每個頁面,ReadAgent使用LLM将頁面内容壓縮為更短的要點(gist),并将這些要點與其對應的上下文(例如,要點來自哪一頁)相關聯,形成要點記憶。

2、互動式查找:

并行和順序互動式查找:對于長文檔的特定任務,ReadAgent會采取行動在原始文本中查找相關細節,同時使用其要點記憶。實作了兩種查找政策:并行查找(一次性請求多個頁面)和順序查找(一次請求一個頁面,最多到某個頁面數量上限)。

3、計算開銷和可擴充性:

分頁、記憶壓縮和互動式查找需要疊代推理,可能導緻計算開銷。然而,該開銷是有限的,呈線性增長,使得該方法能夠很好地适應輸入長度的增加。

實驗結果:

ReadAgent在三項長文檔閱讀了解任務——QuALITY、NarrativeQA和QMSum——上的實驗與評估結果顯示了其顯著的性能優勢。

ReadAgent在所有三個任務上均優于基線方法,表明它能夠更有效地處理和了解長文本。

特别地,在NarrativeQA Gutenberg測試集上,該測試集的平均長度為71k詞,最長為343k詞,ReadAgent将LLM評分提高了12.97%,ROUGE-L提高了31.98%,相比于最佳的檢索基線,有效上下文長度增加了約20倍。

在QuALITY任務中,盡管文章可以适應8K的上下文視窗,ReadAgent通過擴大3倍的有效上下文長度,仍然超越了使用完整文本的性能。

項目位址:read-agent.github.io

論文:arxiv.org/abs/2402.09727

示範:github.com/read-agent/rea…

繼續閱讀