天天看點

參與和觀摩“大模型運用研究成果展示會”是一種怎樣的體驗?

作者:北大法寶

中國海洋大學法學院 陳佳欣

首先很感謝黃文旭老師的推薦和北大法寶郭總給予的實習機會,作為一個各方面尚有諸多進步空間的研一生,我很榮幸能夠參與到本次北京市第三中級人民法院與北京大學法學院聯合舉辦的“數智司睿”大模型運用研究成果展示會的前期研究工作中,并有機會來線下觀摩學習。參與的工作和觀摩的内容,正如本次展示會的舉辦宗旨——“為共同研究評估人工智能在輔助司法審判方面的能力和前景,促進人工智能技術在司法領域的深度應用,全面推動法院工作數字化、智能化,服務法院審判體系和審判能力現代化建設”所展現出的——極富開闊的創新性與未來感。因而即使參與過程隻有短短幾周,我仍收獲頗豐。

參與和觀摩“大模型運用研究成果展示會”是一種怎樣的體驗?

“數智司睿”大模型運用研究成果展示會在北大法學院報告廳舉辦

一、前期研究:與大資料和AI的互動

本次“數字司睿”大模型運用研究成果展示會分為類案檢索、文書自動生成、生成式人工智能司法問答、數字警務、大資料監督管理五大賽道,在前期研究工作中,我主要負責業務側的一些具體任務,主要有三:一,制定文書自動生成賽道中所生成執行裁定文書的客觀要素評價标準;二,确定類案檢索賽道的案例資料集範圍;三,在确定後的案例資料集範圍中查找和梳理對應類案。在完成上述任務的過程中,我逐漸感受到了北大法寶工作及該項目工作的特别之處:

第一項任務,制定自動生成執行裁定文書的評價标準:根據關于執行案件的文書格式标準,結合測試樣例,整理明确執行裁定書中作為評判依據的客觀要素并形成得分内容及評價标準。通過在最高院官網訴訟文書樣式欄目進行檢索,我發現關于執行裁定書的文書樣式覆寫了執行的各類不同情形因而數量較多。故除了對基本資訊的客觀要素提取,将不同樣式的執行裁定書提取交集要素、公因式要素,最後确定客觀要素的得分内容,即面向機器的客觀要素驗證集。同時,由于客觀要素評價是由機器比對要素命中率和相關度,這就決定了這項任務差別于其他一般标準制定任務:需要一定程度上融合機器的視角,去提煉和呈現要素,去設計得分細則,去處理和主觀要素評價密切交織的部分,将法律文本更好地轉化為機器可讀可處理的模式。

第二項任務,确定類案檢索的案例資料集:根據确定的民刑行案由,在相關法院的資料範圍内各自檢索出數量結果,并統計相應的四類參照案例數量(指導性案例、公報案例、典型案例、參閱案例),以及各案由或罪名在人民法院案例庫中的檢索情況。綜合以上結果,再進一步考慮總量,給出該資料集适合或不适合作為機器學習驗證的類案資料集的判斷,對于不适合的資料集,給出一個數量的優化方向和明确建議。這裡就有一個不斷調整檢索式、分析和擇取的過程,并且也需考慮如何進行表格設計以将上述結果和相關次元一攬子式清晰直覺呈現。(注:各個賽道均確定資料安全、資訊安全。比賽内容和比賽過程確定完全與内網系統隔離,不直接介入内網系統;比賽使用的均為公開資料或經過脫密處理的資訊,符合保密要求。)

第三項任務,查找和梳理類案:就确定的幾個案由或罪名的資料範圍,對照測試案例,通過關鍵詞檢索的方式,人工梳理出類案供機器學習,包括實質類案與形式類案。在開始這項任務前,我先重溫了一遍參與2023年“大資料與法律檢索”湖南省研究所學生暑期學校關于類案檢索的課程筆記和研究所學生在學的法律檢索課内容。由于幾個測試案例主要呈現基本事實部分,故就基本事實來提取比對關鍵詞進而篩選類案,并大緻總結可能的争議焦點、涉及的法律适用以擴充檢索的關鍵詞。之後再在滿足結構性相似的基礎上,進一步區分實質類案和形式類案。最後,這個任務同樣要考慮到成果的面向對象是人工智能,類案檢索賽道旨在考驗人工智能産品檢索、比對相似案例的能力,檢驗其針對多篇法律文本進行相似度篩選判斷的水準,故而在最終整理時也按照相似程度對實質類案進行了大緻排序。

總的來說,就這個項目的參與感受而言,相較于之前在律所和法院的實習工作,北大法寶的工作内容和特點有着很大的不同:

  1. 工作内容更綜合,形式更多樣,需要啟動和運用多種不同的思維和能力。除了法律知識基礎、檢索能力、案例分析能力,最重要的還有收集、分析、處理和呈現資訊的能力。沒有重複性勞動過高的dirty work,也沒有固定或現成的參考模闆,需要保持思維活躍和思路靈活。且在完成的過程中,會遇見不少值得進一步延伸和挖掘的點(如人民法院案例庫中的參考案例,是最高院于2023年12月起面向社會征集後稽核入庫的案例,故不同于原來由法院自己認定的參考性案例,二者的異同點可以進一步作分析)。因而,這也是個具有研究性和創造成分,可以發現新問題、收獲新體會的工作。
  2. 對工作風格的要求是嚴謹和周延。這種嚴謹不是表現在形式、格式上的篩查和校對,而是在于需要考慮到很多方面、不同的可能性以及容易造成結果偏差的細節,需要保持開放和一點想象力。可能會遇到一些非知識性的實際應用性的具體的小問題(如類案數量過少甚至幾乎沒有類案),要保持分析感,想着如何去化解,給出一定的優化方案。

三,工作面向的對象具有特殊性。這是一個需要和大資料和AI互動的工作,工作的基礎資源是大資料,工作成果最終面向的對象不是法官、不是律師,而是AI大模型。是以,需要切換和融合機器的視角,不僅僅是熟悉資料庫,還要在撰寫、組織和呈現任務最終檔案時,考慮對于機器更優的可讀可處理和可應用性。

也特别感謝郭總:郭總每一次布置工作,都會把工作的背景和目标都講解得非常清楚,之後還會把工作最終确定的結果告知我。這使我不會覺得這是特别瑣碎的工作,明白自己所要承擔的具體工作在整體工作中處于什麼樣的步驟和位置,需要達到什麼樣的程度、考慮到多大的範圍。整個過程也讓我更感受到怎樣才是高效的溝通。

除了上述對于工作本身的直接體會外,我的其他收獲也不少:

直接感受到人面對機器時所具有的主體性和控制力。智能的程度,和人工的投入程度是成正比的。法律大模型設計、訓練、研發、應用階段都需要人的參與,特别是在對機器進行基礎資料和語料的投喂及培養時,離不開人工标注和人類思維,而這個過程就是可以充分發揮人的主體性,實作AI向人類的“價值對齊”。

也更加明白什麼才是“善假于物”——這是一場對我檢索能力的深刻檢驗和鍛煉:對問題進行剖析,把對案件的了解拆分成單項的檢索條件,利用事實資訊對問題及關鍵詞予以補充,進行組配檢索,以及根據認識程度的深入調整檢索式、檢索方式或者展開檢索任務的再轉換,經曆由小到大、由大到小,多次檢索的周期......檢索是一門沒有最好隻有更好的技能,對于查準率和查全率,永遠有進步空間。在整個解決問題過程所涉及到的确定、檢索、擷取、管理、應用資訊及優化自身資訊和知識體系的訓練,不僅讓我進一步熟悉了北大法寶這個工具和資源庫可供利用來解決問題的角度和空間,更提升了我的資訊素養。

最後,北大法寶的法律知識工程這部分的工作讓我非常清晰地感受到,檢索和标注本身就是研究的一部分。海量的真實的資料和案例,具有非常直接的沖擊力,資料和案例的說服力遠勝于言語。在完成第三個任務時雖然隻看了三百篇左右不同案由的案例,但發現值得歸納總結分析的點依然非常多。大量的資料仍然在“沉睡”,它們值得也需要被“喚醒”,其潛在價值有待于進一步挖掘,轉化為現實的生産力。

二、線下觀摩:對法律AI的無限期待

3月23日周六下午,我來到北大法學院凱原樓一層報告廳觀摩“數智司睿”大模型運用研究成果展示會。

來自各大AI龍頭企業、資訊/科技服務公司、高校科研院所的法律大模型,在類案檢索、文書自動生成、生成式人工智能司法問答、數字警務、大資料監督管理五個賽道展示和比拼其應用能力和成果,可以說是一場“中國法律人工智能的盛大集結”。我受益匪淺。

第一個賽道——類案檢索

在第一個類案檢索賽道,各隊伍的類案檢索智能大模型的操作流程基本是:通過填入案情描述、基本事實和關鍵詞等,經過對各個關鍵要素的比對,在資料庫中分析檢得相似案例。在上述基礎上,讓人比較眼前一亮的模型設計是:一,能夠根據實際使用的場景進行不同的适配;二,能夠分别計算和綜合計算各方面的相似度,并以具體的數值作呈現;三,能夠做到不需要人為動腦提取關鍵詞就可以檢得類案,賽道中有一個大模型能夠通過直接錄入整段事實或整個案例,由AI直接基于錄入的整塊資訊,對海量的案例庫進行整體推理進而得出類案。這個功能,讓曾經通過各種思考擇取關鍵詞檢索篩取類案的我十分感動。

對于此種類案檢索大模型可以如何優化,在評委嘉賓點評環節中點明了兩個方面:一,生成式大模型的一個典型特征就是互動問答式,那麼類案檢索大模型完全可以考慮利用這一特征,設計成互動問答式,通過對所檢得的類案結果進行不斷的追問,最終逼近自己想要的類案;二,讓大模型通過什麼去定位類案?不僅限于不同案由、不同争議焦點等等這些基本的傳統的類案結構形式要素,完全可以設計辨別出更多的特征。特征越多,檢索也就越精确,但這方面需要更多地融合司法層面的特征。

第二個賽道——文書自動生成

在文書自動生成賽道中,大模型根據給定的材料和案件資訊,通過文檔輸入或對話模式,自動生成相關的模闆化文書,這考驗的是人工智能産品識别抽取資訊、套用文書模版的能力。各類型文書都有對應的模闆在系統内進行提前嵌入,根據需求進行相應操作,即可生成所需文書。除了自動生成文書,個别大模型還具備彙整文書的功能,可在所給材料的基礎上整理形成卷宗。(P.S.該賽道客觀要素的評分,是由三台機器評委完成的。)

我的感受是,在這個賽道,何種大模型更勝一籌是很直覺的:一,是能為你偷更多的懶、甚至能幫你提前想好和拓展你可以偷的懶,如有的大模型能實作各種格式的轉換,有的大模型可以進行個性化服務;二,是能夠展現專業性、展現與司法工作的真正結合,而不是單純的技術附加,這非常考驗大模型的底座能力和算法智慧。

第三個賽道——生成式人工智能司法問答

生成式人工智能司法問答賽道旨在考驗人工智能産品自然語言識别能力和基礎法律知識學習能力,采用真實案例改編成的簡答題,包括民事、刑事、行政類常見基礎案件,涵蓋刑事案件刑期預測、民事侵權責任認定、行政行為合法性判斷等問題,請人工智能現場回答。此類大模型比類案檢索大模型、文書自動生成大模型的設計更加複雜,所涉技術更多,學習和訓練成本也更高。

作為觀衆,我的體會是:首先,對于生成式人工智能司法問答的産品,其訓練模型的設計可堪為最重要的問題,直接影響到人工智能對問題的了解和所生成答案的模式。其次,不同的問答模型,各有其優勢和特點。站在使用者的立場上,如果能夠提供一個內建式的、多模型融合提供的平台,無疑是最高效快捷的。北大法寶的法寶新AI應用中的智能問答系統,已經接入了國内所有主流的大模型,包括原生大模型和融合法寶資料的大模型,使用者可以自由組合選擇多個模型,同時獲得來自不同模型的答案并根據需求進行模型選擇。

對于AI應用輸出答案時提供的相關法律依據,也可以連接配接法寶資料庫,直接對答案進行“溯源”和“增強”。日後專門有一個針對司法問答類人工智能産品的內建平台,也是很有可能的。另外,不管AI和大模型多麼聰明或者稍欠靈氣、差強人意,對于人來說,提問都是非常關鍵的能力。怎樣給AI布置任務、向AI表述、與AI溝通,促進與AI的互相了解?才能讓它高效生成讓自己滿意的答案?提升AI作為工具為己所用的價值?這是值得不斷去思考和訓練的。

第四個賽道——數字警務

數字警務賽道考驗人工智能在人民法院提高法警隊伍工作效能方面的能力,聚焦解決司法警務工作普遍存在的刑事案件保障壓力大、涉訴信訪沖突突出、風險預警智能化水準不高等突出問題。這個賽道最典型的大模型應用如法警綜合業務管理系統,具有智慧巡邏防控、人工智能輔助人臉資訊識别預警等功能,能根據周邊區域不同的防控需求,劃定不同的形狀的防控區域、标注重點防控部位,以及通過人臉識别技術實作對管控人員異常行為的預警。

這個賽道上還出現了一個很有趣的警務大模型應用——法警身心健康檢測平台,能通過穿戴的裝置來檢測法警的疲勞度、情緒狀況和能量值。我想,如果設計初衷是為了評測法警身心健康,以便于了解相關情況預防疏解實作人文關懷,那其實在賽道之外,這種應用設計的面向對象可以不僅限于法警,社會中各類群體,不管是管理人員還是打勞工,甚至是當代大學生,其實可以擁有一個專門的身心健康檢測系統。也就是說,無法展現此平台之于法警的特殊性。若繼續在公檢法場景下讨論該類平台的應用,是不是能考慮對在押犯人情緒狀況的檢測呢?算是一個延伸性的思考吧。

第五個賽道——大資料監督管理

大資料監督管理大模型涵蓋多個工作場景,主要針對是案件辦理中存在的适法不統一、裁判工作瑕疵、執行工作不規範、文書不規範、資訊不協同、程式空轉等問題,建構相關應用場景并嵌入辦案系統,實時預警提示,輔助法官辦案。以裁判文書品質監督大模型為例,把相關規則、标準、規範等嵌入到系統中,能對錄入的裁判文書進行諸如法規法條引用準确性、體例結構規範性、裁判文書上下文邏輯一緻性等監督,這無疑能夠實作對裁判文書的高效糾錯和質檢。還有一類是大資料審判監督管理大模型,如高風險案件資料監督大模型,能通過對特定要素資料的檢測、碰撞和內建進而綜合計算出高風險案件,進行“自動防錯”“全程預警”,實作從“事後監督”到“事前監督”“事中監督”的轉變。

也有團隊從對特定類型案件的分析入手,設計具有更強的專業性和糾紛解決針對性的大模型。這種大模型除了能展現該類型案件整體數量、地域分布等基本情況,還能對案件形成原因、案涉關鍵條款進行分析,進而總結出常見的争議焦點,并在大資料基礎上提煉出一般裁判規則,給出對策建議。雖然有些結論比較大而化之,但仍然可以看到大模型非一般的歸納總結分析能力和潛力。此類大模型能夠法院場景建設的需求,具有非常強的功能延展性:可以在大資料分析的基礎上,合理甄别和認定待測案涉行為是否屬于某類行為;同時也能幫助法官迅速确定争議焦點,直接對争議事實開展實質性審查;還能對被告進行“資料畫像”;更進一步地,完全可立足社會治理薄弱環節,建立相關資料模型,形成專題分析報告,為決策提供參考。

大資料監督管理模型賽道,可謂五個賽道中技術最綜合、應用最深層、内容最豐盛的,我深深感受到:法院的數字大模型應用和數字法院建設直接緊密相關,法律大模型的應用讓案件辦理不再單純是法官個體的智慧和思考,而是一整套大資料智能分析系統的支援。且該類大模型在被應用的同時,也是在吸收學習轉化新資料、進一步擴張搭建資料倉庫的過程,實作了資料全面賦能法院業務、法院業務持續反哺資料的良性互動。同時,我也意識到了在這個環節中人類工作的關鍵作用——該類大模型的建立離不開對大量類案的學習,而對類案的梳理脫離不了人工,其最終生成内容的高質效,也需要高品質的資料标注才能得以實作。

——————

五個賽道的展示,與其說是比拼,更像是在交流觀點、碰撞思維,最後所有的參賽隊伍都獲得了不同類型的獎項,如最佳設計獎、最佳創意獎等等。可能這也是為什麼最終名為大模型運用研究成果“展示會”,而不是“競賽”的原因吧,比起競争,更多展示的是經驗與智慧共享的過程。

綜合五大賽道來看,用點評嘉賓北京市進階人民法院孫玲玲副院長所總結的,法院對法律人工智能的需求莫過于三點:第一,減輕法官非價值判斷的工作量,減少重複性勞動;第二,通過海量的資料,實作對法院全鍊條、全方位的管理監督;第三,法院擁有大量的裁判文書,通過法律人工智能利用和發揮這種資源優勢,進而對社會治理提出建議和參考。

經過本次觀摩,我對數字法院建設也有了直覺的體會:數字法院建設不同于法院資訊化建設、智慧法院建設,它實作了有别于傳統的根本性變化,不是隻停留在立案、審判、執行等法院業務工作由線下轉為線上這種形式和載體上的轉變,而是依托大資料手段逐漸建立覆寫法院工作各個流程各個領域的場景模型,進而實作法院業務、組織、體制的全方位變化,也更是一種理念和思維上的轉變——“數治”,能夠成為一種治理的方式和手段。

同時,展示會挑選設定的五個賽道,生動展示了“将資料轉化為生産力,助力審判工作現代化”非常重要的五個方面,産學研實融合,知識和應用結合,也讓人對AI的潛力有了更強的期待:正如全場令人印象最深刻的北京理工大學大學生隊的宣言——“我們的大模型,隻需要一台8000元的電腦”,人工智能的訓練成本是很高的,進入自我學習和更新的階段也是需要時間的,那麼如何實作輕量化、減少成本,這對大模型的推廣應用具有重要意義。此外,目前AI無法解決價值判斷的問題,但能否去設計,讓AI關注到更多的效果?如社會效果、輿論影響等等,面向實踐能夠發揮的作用值得進一步去思考。

除了上述觀摩感受,最鮮明的情緒,還是難以言喻的激動。不僅是因為看到曾經參與的工作及工作成果成為大模型運用展示基礎的一部分而感到奇妙,不僅是因為各賽道各賽隊各模型的“八仙過海,各顯神通”,更是因為充滿無限可能性的未來。用中國政法大學副校長時建中教授的發言來說:無限的期待,無限的期望,對于AI,我們已經開啟了應對的視角,開啟了應對機遇的方式......比想象得更快,我們已經進入了強人工智能時代,面臨前所未有的機遇和挑戰,法律調整的社會關系,發生着數字化的變遷,由此産生了新的法律問題。若立法沒有供給,司法和執法的挑戰和負擔就更重,那麼就用數字化的成果,來積極應對司法實踐中的問題。

參與和觀摩“大模型運用研究成果展示會”是一種怎樣的體驗?

北大法寶榮獲“數智司睿”大模型運用研究成果展示會“特殊貢獻獎”

晚上,在去北京南火車站的地鐵上,結合白天展示會的收獲,我和法寶産品經理瑞雪姐讨論了整整一路,關于法寶GPT“模拟法庭”的功能設計——能夠依托法寶資料庫,通過“模拟法庭”為律師提供的、為法官提供的、為法學生提供的......各方面的預測、準備、模拟.....還有AI律師、模拟仲裁、模拟調解......人工智能應該被用來增強法律人的能力,而不是替代法律人的判斷......為這樣一個充滿創造可能性的未來而思考,是令人感到熱血沸騰的事。

三、非終局的思考:AI、法律與未來

智能化是未來技術的必然趨勢,不是技術的發展疊代,更是人類自己的選擇。人類選擇了去發展技術,也選擇了去應用發展了的技術、應對其帶來的風險。正如龔祥瑞老師和李克強總理在1983年《法律工作的計算機化》一文的末尾寫道的“法律工作的計算機化是這一新紀元的必然産物”,在網際網路時代、數字時代、人工智能時代,從法律資訊數字化、法律工作資料化再到法律運作智能化,法律智能化也是這個時代的必然産物。

通過參與本次工作和觀摩大模型運用研究成果展示會,我更加明白了“讓法律更智能”這六個字的内涵和意義。從第一次使用北大法寶時的眼前一亮、不明覺厲、“好進階的表達!”;到2023年參加湖南師範大學與北大法寶聯合主辦的“大資料與法律檢索暑期學校”所認識和學習到的“法律智能化”的表現、問題、方法和路徑;直到現在,我意識到這六個字絕不旨在突出北大法寶的功能和優勢,更不隻是一個口号、目标和願景,更是一個真正在落地在用心發展的沉甸甸的實踐,一直在進行,一直在更新、一直在推動——“讓法律更智能”。

人工智能時代,怎樣用AI技術讓法律更智能,用北大法寶創始人兼總經理趙曉海所言的最重要的一點是:“法律業界人士應當以充滿激情和好奇心的态度,積極接受和運用AI技術。保持對科技最新發展态勢的好奇心和探索欲,積極接觸新資訊,然後去思考如何将其運用到法律行業中”,未來的時代對于未來的技術也是如此,“讓法律更智能”沒有完成時,隻有進行時......

随着廣闊的機遇一起到來的,也有深刻的挑戰。如何應對開源大模型的安全風險?如何選擇投喂給機器學習訓練的案例才能確定公正?AI輔助審判,如何控制在“輔助”的程度?機器機率相關性≠法律因果性,AI是否會反塑司法?發展AI價值判斷,如何界定AI的介入範圍?人類對不同的法律大模型的選擇和使用,是否會造成一種不平等?......不僅限于法律大模型的發展和應用,AI疊代的速度超乎想象,ChatGPT4.0已經傲視群雄,Sora又驚豔登場,ChatGPT5.0蓄勢待發......AI隻會發展得更快,其每一次質變的速度遠遠超越人類進行應對的每一波量變,有的風險日漸清晰還算可以把握,但也有時候,在我們還沒描摹出風險的具體面貌的時候,就已經處于風險的漩渦之中了......

人類将如何走向強人工智能時代,真的準備好了嗎......我時而樂觀,充滿激情,對充滿可能性和機遇的未來無限期待,也時而懷抱着對四處彌散的風險的擔憂,在AI拯救派和降臨派之間掙紮.......不過,作為在2024年尚且年輕氣盛的00後,想了想,畢竟年輕人,還是保持着面向未來的整體積極觀和風險可控觀吧。

總的來說,這是一場酣暢淋漓的學習,感謝遇見這樣的機會,擁有如此的體驗。

面向AI與未來,“勇氣、激情、探索欲缺一不可”。用AI為法律人賦能,作為法律人通過AI自我賦能,讓法律人塑造AI的程度要大于被AI塑造的程度——我想,應該擁有“弱者”的心态和姿态,持續優化和自己的知識、思維和技能,就像大模型的不斷被喂養、接受訓練和更新疊代一樣,人也應永不停止自我學習和優化。面向強人工智能時代(以及更遠的超級人工智能時代),每類行業、每種平台、每個人,都可以也都需要“不停地想應該如何讓未來更精彩”。

繼續閱讀