大模型入局傳統算法，LLMZip基于LLaMA-7B實作1MB文本壓縮率90%！

論文連結：https://arxiv.org/abs/2306.04050

随着以ChatGPT、GPT-4為代表的AI大模型逐漸爆火進入公衆視野，各行各業都開始思考如何更好的使用和發展自己的大模型，有一些評論甚至認為大模型是以人工智能為标志的第四次産業革命的核心競争産品。例如在5月26日的北京中關村2023論壇上，百度公司創始人、CEO李彥宏發表了題為《大模型改變世界》的演講。在這次演講中，李彥宏提出：“百度要做第‍一個把全部産品重做一遍的公司”。這意味着，大模型現有的能力，已經可以向傳統的網際網路應用和方法發出挑戰。

本文介紹一篇來自得克薩斯A&M大學的工作，在本文中，作者瞄準的領域是傳統的文本壓縮算法。作者巧妙地發揮了現有大模型的文本預測能力，例如使用LLaMA-7B對輸入的前幾個token預測其下一個位置的文本，并且對大模型預測英語熵（entropy of English）的漸近上限進行了全新的估計，估計結果表明，在大模型加持下，該估計值明顯低于目前常用方法的估計值。基于這一發現，作者提出來一種基于大模型的英國文本無損壓縮算法LLMZip，LLMZip巧妙的将大型語言模型的文本預測能力與無損壓縮方案相結合，實作了高效的文本壓縮性能，經過一系列的實驗表明，LLMZip已經超過了目前最為先進的文本壓縮算法，例如BSC、ZPAQ和paq8h。

大模型入局傳統算法，LLMZip基于LLaMA-7B實作1MB文本壓縮率90%！

一、引言

目前以ChatGPT為代表的大模型主要在自然語言領域中的學習和預測等兩個方面取得了非常驚人的成就。實際上，學習、預測和壓縮三者之間有着非常密切的聯系。早在1951年，資訊論之父和人工智能先驅克勞德・香農（C.E.Shannon）發表了一篇名為《Prediction and Entropy of Printed English》的論文[1]，在該文中，香農以英語語言為例，深度探索了預測和壓縮之間的聯系，并且對英語預測熵的上下界進行了估計，下圖從香農1951年論文手稿中摘錄。

香農認為，可以通過對一段文本中的下一個單詞進行預測，我們就可以估計出目前文本所含的資訊量，如果預測效果很好的話，就可以将該預測模型轉換為一個良好的壓縮算法。這一思想在後來的資訊論中發揮了重要作用，目前很多用于語音、圖像和視訊壓縮的算法都明确或隐含地利用了這一思想。這種壓縮方法的性能在很大程度上取決于預測器的效果，本文作者認為，每當模型預測能力取得重大進展時，我們都有必要研究最新的預測模型對壓縮方法是否有影響。是以作者很快就想到，能否使用LLaMA和GPT-4等大模型來得到更好的文本壓縮結果和更準确的英語熵估計。作者在實驗中選用了LLaMA系列模型中的LLaMA-7B版本，實驗資料集選用text8，在text8資料集中的1MB子集中，LLMZip得到的熵估計上界為0.709位/字元，明顯低于香農論文中的估計上界。此外，在text8的100KB子集中，LLMZip可以達到0.98位/字元的壓縮率，這明顯優于目前的SOTA方法。

二、本文方法

2.1 LLMZip的壓縮模組化

本文所遵循的壓縮模組化方式與1951年香農提出的估計英語熵的思想幾乎相同，主要差別是本文使用了現代的可變長度的單詞token來作為基礎元素，并且使用大型語言模型來作為預測器，而不是讓人來預測句子中的下一個元素。作者使用了一個例子來說明本文的壓縮模組化方式，給定一個英文文本：“My first attempt at writing a book”。LLMZip的目标是将這個句子轉換為長度盡可能短的比特序列，以便可以從比特序列中重建得到原始序列。LLMZip首先使用分詞器（tokenizer）将該句子拆分成一系列tokens。随後使用具有記憶功能的語言模型對先前的

個token進行觀察，然後對句子的下一個token進行預測，具體來說，模型會為下一個token的出現機率生成一個排序好的候選清單，如下圖所示。

上圖中下一個位置的可能選項有“reading”、“writing”、“driving”、“cooking”等詞，LLMZip的做法是計算該句子實際單詞（writing）在這個清單中的排名，該排名被定義為R5，作者規定排名順序從0開始，即機率最大的詞排名為 0，第二個最有可能的詞排名為1，依此類推，在這個例子中，“writing”的排名是R5 = 1。

随後模型預測視窗向後推進一個位置，此時需要根據第2到第5個單詞來預測出第6個單詞，如上圖所示，在這個例子中，第6個單詞的預測結果恰好是候選清單中排名最靠前的單詞，是以排名R6 = 0。以此類推，我們可以發現這樣預測下來的排名預測是1，0，0，....這樣的包含很多0的數字序列，這種序列通常可以使用标準的無損壓縮算法（例如zip，霍夫曼編碼）進行壓縮。

當對輸入文本進行重建時，首先需要解壓縮得到token排名清單，然後使用與壓縮階段相同的LLM對輸入token進行預測，并使用解壓得到的排名來确定預測輸出，進而得到完整的解壓文本。

2.2 LLMZip的壓縮比

令

表示由

個字母組成的英語句子，LLMZip首先将

解析為由

表示的一系列tokens，在壓縮階段，将token

送入到大模型中進行預測，可以得到下一個預測token的機率品質函數（probability mass function，PMF）:

随後可以得到目前輸入文本的PMF向量的降序排列：

，并通過

轉換為從1到

的整數序列：

此時，

是token

在目前預測候選清單中的排名，整體壓縮方案的示意圖如下圖所示：

随後作者采用無損壓縮算法（例如zlib）來對排名序列壓縮到

個比特位，實際上，LLMZip算法真正壓縮的目标僅僅是排名序列，是以LLMZip的壓縮比

可以計算如下：

2.3 LLMZip中的兩種無損壓縮方案

作者提到，LLMZip中的無損壓縮子產品可以有多種實作方案，即上一小節圖中的Losseless Compression子產品。其中第一種方案就是使用zlib壓縮算法直接對排名序列進行編碼，作者将這種方案稱為LLaMA+zlib，并用

表示該方案的壓縮率。

第二種方案是使用token-by-token的無損壓縮算法，這種算法使用時分變碼本（time-varying codebook）來對排名序列

進行編碼，其編碼長度可以通過克拉夫特不等式[2]計算得到：

，這種方案的壓縮比被定義為

，形式化表示如下：

三、實驗效果

本文的實驗在text8資料集上進行，并且使用LLaMA-7B[3]作為大型語言模型，作者從先前的工作中摘錄了目前SOTA方法在text8資料集上的最佳壓縮性能，例如paq8h算法可以達到1.2 位/字元的壓縮率，ZPAQ算法可以達到1.4位/字元的壓縮比。作者将這兩種算法作為基線對比方法，與LLMZip算法的對比結果如下表所示。

整體資料集被劃分為10個不同的批次，每個批次含有100,000個tokens，表中最後一行為每種方法在1M資料量下的平均壓縮性能。可以看出，LLMZip的LLaMA+zlib和LLaMA+TbyT版本分别可以達到1.0733位/字元和0.8449位/字元的壓縮比，遠優于另外兩種對比方法。

除了簡單的壓縮比性能對比，作者還進一步分析了LLMZip的壓縮性能對大模型記憶體的依賴性，如上表所示，正如作者所預期的那樣，模型的壓縮性能随着

的增加和提高，作者還發現，模型的壓縮推理時間與輸入文本所占記憶體容量大緻呈現線性比例。

為了驗證本文提出的LLMZip方法的魯棒性，作者還從網際網路電子書庫中選取了一本近期釋出（2023年5月25日）的書籍來對LLMZip方法進行測試。作者從該書中同樣提取了100,000個tokens，并且按照text8資料集的标準進行預處理。同時，為了對比基于LLaMA的大模型壓縮器與目前常用的标準文本壓縮器之間的性能，作者還在該書籍上直接運作了zlib算法，模型的最終測試對比結果如上表所示，可以看到，zlib算法的壓縮率為2.8位/字元，這一結果明顯低于LLMZip的壓縮結果。

四、總結

本文提出的LLMZip是一種使用大規模語言模型（LLaMA-7B）的新型文本壓縮技術，可以極大地提高資料存儲和通信的效率，作者進行的實驗已經展示出LLMZip驚人的壓縮率，結果表明其可以将1MB的文本資料壓縮約90%。這得益于現有大語言模型強大的文本預測能力，即根據曆史的輸入文本來預測下一個位置的單詞或token，這種預測能力早在香農時代就被認為是減少文本備援和高效編碼的關鍵。此外，借助于大模型對長文本資料優越的處理能力，LLMZip還有望提升傳統文本壓縮方法在長文本情景時的壓縮效果。雖然LLMZip目前隻支援英文文本壓縮，但是随着多語言大模型的快速發展，我們相信LLMZip很快就會在其他語言中進行應用。

參考

[1] Claude E Shannon, “Prediction and entropy of printed english,” Bell system technical journal, vol. 30, no. 1, pp. 50–64, 1951.

[2] Thomas M Cover and Joy A Thomas, Elements of Information Theory, Wiley, New York, 1999.

[3] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample, “Llama: Open and efficient foundation language models,” 2023.

Illustration by unDraw

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群（www.techbeat.net）。社群上線480+期talk視訊，2400+篇技術幹貨文章，方向覆寫CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章，并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向，對使用者啟發更大的文章，做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信（chemn493）投稿，溝通投稿詳情；還可以關注“将門創投”公衆号，背景回複“投稿”二字，獲得投稿說明。

>>> 添加小編微信！

關于我“門”▼将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構，旗下涵蓋将門投資基金、将門創新服務以及TechBeat人工智能社群。公司緻力幹通過連接配接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與産業更新。

将門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬建構而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我“門”:

⤵一鍵送你進入TechBeat快樂星球

大模型入局傳統算法，LLMZip基于LLaMA-7B實作1MB文本壓縮率90%！

大模型入局傳統算法，LLMZip基于LLaMA-7B實作1MB文本壓縮率90%！

一、引言

二、本文方法

2.1 LLMZip的壓縮模組化

2.2 LLMZip的壓縮比

2.3 LLMZip中的兩種無損壓縮方案

三、實驗效果

四、 總結

參考

四、總結