本文介紹一篇來自得克薩斯A&M大學的工作,在本文中,作者瞄準的領域是傳統的文本壓縮算法。作者巧妙地發揮了現有大模型的文本預測能力,例如使用LLaMA-7B對輸入的前幾個token預測其下一個位置的文本,并且對大模型預測英語熵(entropy of English)的漸近上限進行了全新的估計,估計結果表明,在大模型加持下,該估計值明顯低于目前常用方法的估計值。基于這一發現,作者提出來一種基于大模型的英國文本無損壓縮算法LLMZip,LLMZip巧妙的将大型語言模型的文本預測能力與無損壓縮方案相結合,實作了高效的文本壓縮性能,經過一系列的實驗表明,LLMZip已經超過了目前最為先進的文本壓縮算法,例如BSC、ZPAQ和paq8h。
大模型入局傳統算法,LLMZip基于LLaMA-7B實作1MB文本壓縮率90%!
一、引言
目前以ChatGPT為代表的大模型主要在自然語言領域中的學習和預測等兩個方面取得了非常驚人的成就。實際上,學習、預測和壓縮三者之間有着非常密切的聯系。早在1951年,資訊論之父和人工智能先驅克勞德・香農(C.E.Shannon)發表了一篇名為《Prediction and Entropy of Printed English》的論文[1],在該文中,香農以英語語言為例,深度探索了預測和壓縮之間的聯系,并且對英語預測熵的上下界進行了估計,下圖從香農1951年論文手稿中摘錄。
本文所遵循的壓縮模組化方式與1951年香農提出的估計英語熵的思想幾乎相同,主要差別是本文使用了現代的可變長度的單詞token來作為基礎元素,并且使用大型語言模型來作為預測器,而不是讓人來預測句子中的下一個元素。作者使用了一個例子來說明本文的壓縮模組化方式,給定一個英文文本:“My first attempt at writing a book”。LLMZip的目标是将這個句子轉換為長度盡可能短的比特序列,以便可以從比特序列中重建得到原始序列。LLMZip首先使用分詞器(tokenizer)将該句子拆分成一系列tokens。随後使用具有記憶功能的語言模型對先前的
[1] Claude E Shannon, “Prediction and entropy of printed english,” Bell system technical journal, vol. 30, no. 1, pp. 50–64, 1951.
[2] Thomas M Cover and Joy A Thomas, Elements of Information Theory, Wiley, New York, 1999.
[3] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample, “Llama: Open and efficient foundation language models,” 2023.