北大開源首個中文法律大模型——ChatLaw

随着ChatGPT的火爆出圈，為大語言模型的場景化落地提供了肥沃的土壤。目前，醫療、教育、金融領域已逐漸有了各自的模型，但法律領域相關的産品卻不是很多。

是以，北大團隊開源了中文法律大模型，并針對大語言模型和知識庫的結合問題給出了法律場景下合理的解決方案。

目前，ChatLaw法律大模型提供ChatLaw-13B、ChatLaw-33B和ChatLaw-Text2Vec三個版本，底座為姜子牙-13B、Anima-33B。使用了大量法律新聞、法律論壇、法條、司法解釋、法律咨詢、法考題、判決文書等原始文本來構造對話資料。

開源位址：https://github.com/PKU-YuanGroup/ChatLaw

線上測試：https://chatlaw.cloud/lawchat/#/

論文：https://arxiv.org/pdf/2306.16092.pdf

ChatLaw-13B：此版本為學術demo版，基于姜子牙Ziya-LLaMA-13B-v1訓練而來，中文各項表現很好，但是邏輯複雜的法律問答效果不佳，需要用更大參數的模型來解決。

ChatLaw-33B：此版本為學術demo版，基于Anima-33B訓練而來，邏輯推理能力大幅提升，但是因為Anima的中文語料過少，導緻問答時常會出現英文資料。

ChatLaw-Text2Vec：使用93w條判決案例做成的資料集基于BERT訓練了一個相似度比對模型，可将使用者提問資訊和對應的法條相比對。例如，請問如果借款沒還怎麼辦？

ChatLaw的回答：合同法(1999-03-15): 第二百零六條借款人應當按照約定的期限返還借款。對借款期限沒有約定或者約定不明确，依照本法第六十一條的規定仍不能确定的，借款人可以随時返還；貸款人可以催告借款人在合理期限内返還。

「AIGC開放社群」通過免費無需注冊的線上體驗位址（https://chatlaw.cloud/lawchat/#/）使用了ChatLaw，其表現出來的法律效果要比同類産品更加專業、垂直，同時支援多輪對話互動。（暫未接入專業法律咨詢功能）

例如，夫妻離婚，有哪些需要注意的法律問題？

ChatLaw：離婚是一項非常嚴肅和複雜的決定，需要仔細考慮以下幾個方面的法律問題。

1.财産分割：在離婚過程中，夫妻雙方應該協商如何處理共同擁有的财産。這包括房屋、車輛、銀行賬戶等資産。如果無法達成協定，法院将會根據當地的法律規定進行裁決。

2.子女撫養權：如果夫妻有未成年子女，他們必須就子女的撫養權達成協定。這可能涉及到探視權、監護權、支付贍養費用等問題。如果無法達成協定，法院将會根據當地的法律規定進行裁決。

3.債務分擔：在離婚過程中，夫妻雙方應該協商如何處理共同負擔的債務。例如信用卡欠款、貸款等。如果無法達成協定，法院将會根據當地的法律規定進行裁決。

4.保險政策：在離婚過程中，夫妻雙方應該讨論如何處理共同購買的保險政策。例如人壽保險、醫療保險等。如果無法達成協定，法院将會根據當地的法律規定進行裁決。

5.遺囑：在離婚過程中，夫妻雙方應該讨論如何更新或撤銷共同制定的遺囑。如果無法達成協定，法院将會根據當地的法律規定進行裁決。

如何合理地評估垂直領域大模型的性能一直是一個問題，因為測試資料和真實場景存在差異。北大團隊隻是收集了十餘年的國家司法考試題目，整理出了一個包含2000個問題及其标準答案的測試資料集，用以衡量模型處理法律選擇題的能力:評測資料demo。

然而，開發團隊發現各個模型的準确率普遍偏低。在這種情況下，僅對準确率進行比較并無多大意義。是以，借鑒英雄聯盟的ELO比對機制，做了一個模型對抗的ELO機制，以便更有效地評估各模型處理法律選擇題的能力。以下分别是ELO分數和勝率圖

得到以下結論：

（1）引入法律相關的問答和法規條文的資料，能在一定程度上提升模型在選擇題上的表現。

（2）加入特定類型任務的資料進行訓練，模型在該類任務上的表現會明顯提升。例如ChatLaw模型之是以能勝過GPT-4，是因為使用了大量選擇題作為訓練資料；

（3）法律選擇題需要進行複雜的邏輯推理，是以，參數量更大的模型通常表現更優。

提升邏輯推理能力，訓練30B以上的中文模型底座：在ChatLaw的疊代過程中，發現和醫療、教育、金融等垂直領域不同的是，法律場景的真實問答通常涉及很複雜的邏輯推理，這要求模型自身有很強的邏輯能力，預計隻有模型參數量達到30B以上才可以。

安全可信，減少幻覺：法律是一個嚴肅的場景，我們在優化模型回複内容的法條、司法解釋的準确性上做了很多努力，現在的ChatLaw和向量庫結合的方式還可以進一步優化，另外和ChatExcel團隊師兄深度結合，在學術領域研究LLM的幻覺問題，預計兩個月後會有突破性進展，進而大幅減輕幻覺現象。

私有資料模型：一方面會繼續擴大模型的基礎法律能力，另一方面會探索B/G端的定制化私有需求。