聯邦法律大語言模型

“FEDJUDGE: FEDERATED LEGAL LARGE LANGUAGE MODEL”

目前已經湧現出許多優秀的法律大模型（Legal LLM），如Lawyer LLaMA和ChatLaw等。然而，盡管Legal LLM在集中式資料訓練的環境中取得了顯著的成果，卻少有人深入探究其在聯邦學習場景下的應用。

在法律領域，聯邦學習為Legal LLM的應用帶來了一系列潛在的好處和機遇。首先，法律資料的隐私性是一個至關重要的問題。大量的法律資料分布在法院、檢察院、咨詢公司和法律教育教育訓練機構等組織中，這些資料包含了個人的敏感資訊。通過采用聯邦學習，Legal LLM可以在本地裝置上進行訓練，在中心伺服器進行參數的聚合和分發，避免了原始資料的共享，有效保護了使用者的隐私。

此外，法律領域中存在着資料稀缺的情況。某些特定領域的法律資料可能非常有限，例如針對特定罕見案例的判例資料或特定地區的法律實踐資料。在傳統的集中式學習中，這些資料可能無法充分利用。而采用聯邦學習，可以在本地裝置上進行模型訓練，利用分散的資料資源，進而提高模型的性能和泛化能力。

本文提出了FedJudge，一個聯邦法律大模型（Federated Legal Large Language Model）。

論文位址：https://arxiv.org/pdf/2309.08173.pdf

Github位址：https://github.com/yuelinan/FedJudge

摘要

本文提出了一種名為FedJudge的聯邦學習架構，用于高效、有效地微調法律大型語言模型。該架構利用參數高效的微調方法，在聯邦學習訓練期間僅更新少量附加參數。此外，還探索了連續學習方法，以在訓練本地用戶端時保留全局模型的重要參數，以緩解資料轉移問題。在三個真實資料集上的廣泛實驗結果清楚地驗證了FedJudge的有效性。

簡介

大型語言模型在法律智能領域有廣泛應用，通過在法律資料上進行微調，可以生成多種法律語言模型，如Lawyer LLaMA和ChatLaw，可以幫助法律專業人士提高工作效率，為普通人提供法律咨詢服務。

Legal LLMs雖然取得了良好的結果，但由于訓練集是集中式的，是以仍然存在資料隐私問題。在實際情況下，大量的法律資料分布在不同的機構中，直接資料通信可能不可行，是以資料中心的Legal LLMs訓練範式不可用。

本文介紹了如何在聯邦學習（FL）架構下，将語言模型（LLMs）微調到法律領域。通過實作FL方法，可以在本地裝置或用戶端（如法院和法律咨詢公司客戶）上微調法律LLMs。然後，通過聚合和分發參數來更新Legal LLMs，避免共享原始資料并有效保護資料隐私。

将FL方法有效地應用于Legal LLMs的fine-tuning仍然是一個需要回答的重要問題。

LLM的參數很多，完全微調LLM非常耗費資源，會帶來巨大的計算開銷，限制了計算能力有限的用戶端的微調。此外，使用傳統的FL算法（如FedAvg）來聚合和分發LLM的參數會增加FL系統的通信開銷。标準的FL工作流程不可用，兩者都降低了LLM微調的效率。

法律資料分布的變化會影響LLMs的微調，不同客戶的資料差異會導緻訓練時聚合性能不佳，進而降低FL方法的有效性。在法庭客戶中，文本資料通常以專業的法律語言風格呈現，而在咨詢客戶中，資料更傾向于口語化描述。

本文提出了第一個聯邦法律大語言模型（FedJudge）架構，采用參數高效的微調方法，在聯邦學習環境下有效地微調LLMs。首先采用LoRA方法分别訓練每個本地用戶端，然後上傳訓練好的參數到中央伺服器進行聚合，最後将聚合的全局參數分發給每個用戶端，實作聯邦法律LLMs的高效微調。

為了解決資料分布偏移的問題，本文提出了一種基于全局和本地模型的連續學習方法。通過限制本地模型的參數，使其不會忘記全局模型的重要參數，進而減少本地和全局模型之間的權重差異，保留全局模型的知識，緩解資料偏移問題。

本文的主要貢獻如下：

FedJudge是第一個考慮LLMs微調中計算和通信開銷以及法律資料異構性導緻性能下降的聯邦法律LLMs架構。
提出了一種參數高效的LoRA微調方法，并引入了一種連續學習方法，以防止全局模型的重要知識在本地模型訓練期間被遺忘。
在法院觀點生成、法律邏輯推理和法律咨詢任務上的廣泛實驗驗證了FedJudge的有效性。

Fedjudge：聯邦法律大型語言模型

問題定義

在聯邦學習中，有N個用戶端和它們對應的本地私有資料。我們的目标是在不同的用戶端中使用指令調優方法來對基礎生成式LLM進行參數高效的微調，以适應法律領域。自回歸訓練的目标損失是不同用戶端具有不同的資料分布。

其中x和y分别代表指令輸入和指令輸出，ym表示y的第m個标記，y<m表示ym之前的标記，Wip表示當機的LLMs參數，Wie是可訓練的參數。

在聯邦學習中，我們将每個用戶端的參數上傳到中央伺服器，并使用聚合函數fagg(·)将所有用戶端的參數聚合成全局參數Wˆe。最後，我們将Wˆe分發給每個用戶端，完成一輪通信更新和FedJudge的訓練。

FedJudge架構

FedJudge是一個用于聯邦學習的模型評估方法。為了減少計算和通信開銷，引入了參數高效的微調方法。基于此，設計了FedJudge-CL來解決FL訓練中的資料偏移問題。

FedJudge中的參數高效微調

本文介紹了如何在聯邦學習架構下，使用參數高效的微調方法将LLMs fine-tune到法律領域。首先使用LoRA方法訓練每個本地用戶端Ci，其中LLMs參數被當機，可訓練的秩分解矩陣被引入到LLMs的Transformer架構的每一層中。每個本地用戶端的相應學習目标在公式（1）中給出，隻在本地訓練過程中更新Wie。

更新用戶端後，将所有用戶端的LoRA參數上傳到中央伺服器，并采用權重平均函數fagg(·)進行參數聚合。本文采用權重平均函數作為fagg(·)。

為了清晰起見，我們将Wie在第t輪通信中表示為Wie(t)（t≥1），将Eq.(1)中的Li表示為Li(t)。在第t輪結束時，我們将聚合參數Wˆe(t)分發給每個用戶端，并将本地參數We(t)替換為全局參數Wˆe(t)。

FedJudge持續學習

FedJudge-Base雖然可以高效訓練FedJudge，但仍然存在資料分布轉移問題，降低了FedJudge的效果。是以，我們擴充了FedJudge-Base為FedJudge-CL，利用連續學習方法來緩解資料轉移問題。

我們在每個用戶端上繼續基于分布式參數Wˆe進行本地訓練。然後，我們限制Wˆe中的重要參數在訓練過程中盡可能少地改變。這個限制可以確定本地模型不會忘記先前學到的全局知識。

為了實作持續學習，我們采用了中的連續學習限制，其中Wˆe(t-1)表示在第(t-1)輪通信中獲得和分發的全局參數，Wie(t)表示目前第(t)輪訓練的本地可訓練參數。我們采用以下方程來評估參數的變化。

使用了一種基于Jacobians的方法來選擇用戶端，并使用了一種基于梯度的方法來進行模型聚合。最終，每個用戶端的目标是最小化其本地損失函數。

實驗

資料集

本文使用三個不同分布的資料集來評估FedJudge的性能，包括法院觀點生成資料集、法律咨詢資料集和法律推理資料集。這些資料集不共享，以模拟FL場景。

法院視圖生成資料集(客戶1)：法院視圖是用來解釋人工法官對案件事實的裁決。是以，在這個資料集中，我們的目标是根據給定的案件事實自動生成法庭視圖。首先從C3VG[17]資料集收集了59,927個案例。然後，按照指令調優方法[18]，我們将收集到的資料處理為{指令輸入:指令輸出}的形式(例如圖1(a)中的示例)。最後，我們将這些資料分為訓練集和測試集。資料集的詳細統計如表1所示。

法律咨詢資料集(Client2)：我們首先從律師LLaMA[3]中收集法律咨詢資料作為訓練集，它将咨詢資料自然地呈現為{指令輸入:指令輸出}的形式。其中，指令輸入是外行人在現實場景中提出的法律問題，指令輸出由ChatGPT[1]生成。然後，從一個公共資料集1中抽取2,797個咨詢資料作為測試集。圖1(b)顯示了咨詢資料集的一個示例。

法律推理資料集(Client3)：該資料集也是從律師LLaMA中收集的，其中指令輸入是一個需要推理的問題，指令輸出由ChatGPT[1]生成。我們将它們分為訓練集和測試集。圖3顯示了推理資料集的一個示例。

實驗設定

對比方法

本文介紹了使用Baichuan-7B作為預訓練LLM骨幹網絡的方法，并介紹了基于Baichuan-7B和LoRA的基線模型。這些模型在中文智能任務中取得了競争性的結果。

本文介紹了幾種不同的訓練方法，包括直接使用Baichuan-7B進行預測、标準的中心化訓練方法、隻使用各自私有資料進行訓練的中心化方法以及聯邦學習方法。聯邦學習方法不僅可以得到全局聯邦模型FedJudge，還可以為各個用戶端獲得個性化模型。

評估名額

本文使用ROUGE F12、BLEU3和BertScore等評估名額評估FedJudge的有效性。

實作細節

本文介紹了FedJudge-CL和LoRA算法在聯邦學習中的應用。實驗中設定了3個用戶端，FedJudge-CL的λ為1，LoRA的排名為4，通信輪數為5，Adam優化器的學習率為2e-4。實驗在2個Tesla A100 40G GPU上進行，每個裝置的批量大小為2，梯度累積步驟為8。

實驗結果

整體表現

Baichuan-7B在零樣本情況下表現良好，說明它已經通過大量資料訓練具備了法律摘要和推理能力。但是，它的結果仍然比經過微調的模型差，這也表明了微調LLMs到法律領域的必要性。

中心模型在訓練過程中混合具有不同分布的資料，但在多個名額上仍然表現不如聯邦模型，這說明簡單地混合具有不同分布的資料進行集中訓練是不合适的。

使用Center-ClientE訓練得到的模型在相同分布的測試資料上表現良好，但在具有不同分布的其他資料上表現不佳。這說明在資料隐私的背景下，使用聯邦學習擷取全局合法的LLM是必要的。

FedJudge-Base在與Center相比取得了競争性的結果，而我們的個性化模型Base-ClientE在FL環境中通過微調LLMs與LoRA取得了比Center-ClientE更好的效果。最後，我們觀察到FedJudge-CL和CL-ClientE都優于其他模型。

通過持續學習限制，FedJudge-Base和Base-ClientE在大多數名額上表現良好，這表明資料偏移問題可以得到緩解。同時，本地模型受到限制，不會忘記全局知識，有助于更新全局模型，進而獲得更有效的FedJudge-CL模型。

案例學習

本文對CL-Client3和基線模型Baichuan-7B和Center生成的文本進行了質性分析。通過一個法律推理資料集的例子，發現Baichuan-7B的答案與問題無關，Center的推理過程有誤，而CL-Client3則正确回答了問題并給出了相應的推理過程，證明了該方法的有效性。

總結

本文介紹了在聯邦學習（FL）環境下如何将大型語言模型（LLMs）細調到法律領域，并提出了第一個聯邦法律LLMs架構（FedJudge）。具體而言，我們開發了一種參數高效的細調方法，以實作對FedJudge的高效訓練。此外，為了緩解FL中資料分布偏移的問題，我們将一種持續學習方法納入FedJudge中，以限制全局模型的重要知識在本地訓練過程中被遺忘。在三個真實資料集上的實驗結果證明了FedJudge的有效性。

特别說明：本文僅用于學術交流，如有侵權請背景聯系小編删除。

- END -

轉載來源：靈度智能

轉載編輯：楊淞幄

聯邦法律大語言模型

繼續閱讀

3倍靈敏度，搜尋百萬蛋白對隻需幾秒，複旦等開發新的語言模型

8.3K Stars!《多模态大語言模型綜述》重大更新

Meta研究員破解大模型逆轉詛咒，推出《語言模型實體學》

解碼 AI：揭秘聊天機器人的“大腦” - 大語言模型

預測蛋白質共調控和功能，哈佛&MIT訓練基因組語言模型

【英特爾釋出新一代AI晶片，或成英偉達産品勁敵】英特爾在人工智能加速器領域取得了重要進展，其子公司HabanaLabs在

研究者提出人工智能新概念，讓大語言模型與真實實體世界進行互動

Llama 3：開源大語言模型的下一個前沿

大語言模型的應用秘訣：如何通過高效的提示詞掌控AI？

蘋果又被曝大動作，自研裝置端大語言模型，AI才是“重振雄風”新出路？

難怪之前傳iPhone16系列國行版本AI功能将由百度提供，原來百度在中國人工智能發明專利企業排名中還是靠前的。排名前十

蘋果釋出OpenELM，基于開源訓練和推理架構的高效語言模型

所羅門諾夫：大語言模型的先知

大語言模型部署：vLLM 與量化技術

蘋果發高效語言模型 OpenELM；小米策劃 15 萬元新車；AI 成功改寫人類 DNA|極客早知道

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊