天天看點

小律所,大資料:訴訟的資料化時代

小律所,大資料:訴訟的資料化時代
訴訟案件會産生大量文檔,而這些文檔蘊藏的資料對此後同類型案件的代理和審判具有很高的參考價值。法律業大資料的時代已悄然到來。天同律師事務所是一個專注于商事訴訟的小律所,卻希望通過實施訴訟大資料的戰略,從更廣泛的角度來分析、評價案件,為更多訴訟律師提供有價值的資訊。
小律所,大資料:訴訟的資料化時代

目前,大資料的概念被各個行業廣泛讨論,似乎我們一夜之間就進入了大資料時代,各種大資料的研讨會、講座、營銷方案蜂擁而至,讓人眼花缭亂。在這樣的語境下,中國的律師事務所也開始談論大資料,一時間“大資料”概念風靡法律服務行業,見面要是不談論大資料,就好像沒有摸到時代的脈搏。

受ibm、麥肯錫和o’reilly等公司的影響,關于大資料如何改善法律服務的文章也越來越多,但是很多文章是基于自身營銷目的進行宣傳,對大資料的核心思想(特别是法律行業如何使用大資料)并不了解,有些觀點甚至有些偏頗。新一輪技術浪潮剛剛興起,全世界的法律行業都期待使用新的工具和方法提升法律服務品質。法律業大資料的時代已悄然到來。

一、大資料是什麼?

什麼是“大資料”?目前并沒有統一的定義。ibm 提供了一個充分的簡單易懂的表述:大資料有以下三個特點:大批量(volume)、高速度(velocity)和多樣化(variety)。

大批量——大資料體積龐大。企業裡到處充斥着資料,資訊動不動就達到了tb級,甚至是pb級。

高速度——大資料通常對時間敏感。為了最大限度地發揮其業務價值,大資料必須及時使用起來。

多樣化——大資料超越了結構化資料,它包括所有種類的非結構化資料,如文本、音頻、視訊、點選流、日志檔案等等都可以是大資料的組成部分。

msdn的brian smith在ibm的基礎上增加了第四點:變異性——資料可以使用不同的定義方式來進行解釋,不同的問題需要不同的闡釋。法律大資料是大資料的子類,但由于外部環境的動态變化、定義方式的不同,對法律大資料的界定沒有明确的内涵和外延,變異性的特點尤為突出。

二、大資料對律所有何用?

新技術觀察作家derrick harris對律師事務所基于大資料如何進行流程優化提出了三方面的見解:

一是文檔檢索可能是大資料對法律工作影響最大的領域。律所通常存儲海量的非結構化電子文檔,包括電子郵件、office文檔、pdf文檔等等,從數以tb計的資料中檢索案件相關文檔簡直就是律師的噩夢,費時、費力而且準确性差。通過大資料智能分析軟體,律所能夠大大提高文檔檢索效率。例如大資料創業公司recommind開發的大資料軟體能通過機器學習算法進行“預測編碼”,大大提高法律文檔的檢索效率。另外一家值得關注的企業——purediscovery的語義分析技術也有大幅提高文檔檢索效率的功用。

二是訴訟案件中會産生大量文檔,而這些文檔“蘊藏”的資料對後來的代理和審判具有很高的參考價值。大資料創業公司lexmachina的目标客戶是知識産權律師,為他們提供決策支撐資料統計服務。lexmachina将很多過去的較為模糊的定性資料都給量化了,例如“這位法官對被告很不利”、“這種索賠的案件通常都能赢”或“這位律師對此類技術的經驗值最高”等。lexmachina資料分析的資料源主要來自公開的pacer(聯邦法庭資料庫),pacer的資料一直存在,但是lexmachina是第一家通過機器學習和自然語言處理等技術從中“淘寶”的公司。值得注意的是recommind也在不斷開發新的産品hypergraph(超級圖譜),用來幫助律師發現人、話題、時間線、非結構化資料之間關聯關系等。

三是律師們需要自己動手,創造性地利用各種現成的大資料工具和資料源。例如律師可以使用類似scraperwiki這樣的工具分析證人的twitter聯系人網絡和活動記錄。律師還可以使用類似etcml這樣的免費工具(對應的付費服務如alchemyapi)分析各種文本,包括推文和電子郵件,來發現關鍵觀念或進行傾向性判斷。零用import.io這樣的工具從網站抽取資料(例如房産價格曆史資料),并制作成圖表。

在美國,法律行業就大資料的工具和方法已經展開實質性探讨,創業型的it公司紛紛将目光投向傳統的法律服務行業,例如最近創業公司judicata剛剛宣布獲得了來自khosla ventures的580萬美元融資,這家公司想做的事就是更好地幫助律師進行法律研究,其線上服務預計在今年夏季釋出 beta 版。但由于法律體系、司法環境、網際網路政策的差異和語言上的障礙,derrick harris提到了的這些工具很難在中國的律師事務所直接運用。是以,當中國還沒有針對法律行業的大資料分析工具時,天同律師事務所提出大資料分析方法要與自身核心業務結合,向it服務市場明确提出自身大資料運用需求,待時機成熟時在自身的核心業務中高效運用大資料工具。

三、天同律師事務所的大資料戰略

天同訴訟大資料戰略,其目的在于建構對法律大資料進行分析、提煉、加工、推薦的大資料分析體系,而非存儲龐大資料資訊僅僅用于資訊檢索。換言之,如果把訴訟大資料比作一種投資,那麼這筆投資實作盈利的關鍵,在于提高對各類法律大資料的“加工能力”,通過“加工”實作資訊的“增值”。對于天同的核心業務訴訟而言,“增值”服務的主要對象是天同律師,即天同的客戶關系管理體系中的内部客戶,大資料能夠精準預測他們在案件代理過程中的需求,對于提高案件代理品質和服務效率是不言而喻的。

天同律師事務所專注中國高端民商事訴訟,精于二審及再審案件的代理,尤其擅長處理重大、疑難、複雜的商事訴訟,取得了極高的勝訴率。高勝訴率的背後,展現了天同對案件的精細化管理,每個案件通過33道工序整理,展現了天同律師精益求精的工作态度和卓越的知識儲備。目前,天同對于高端民商事訴訟的法律資訊處理,主要是通過人工來完成,案件卷宗的梳理、案情可視化展示、相關法律法規檢索、指導性案例的查詢,每一步都有大量的人工處理,效率的提升往往依靠輔庭律師的熟練掌握。通過實施訴訟大資料的戰略,希望能從更多的角度來分析、評價案件,提高法律檢索的效率和全面性,為出庭律師提供更多有價值資訊,形成對案件的全面認知,以便構思最佳的代理政策。天同律師在訴訟過程中運用大資料分析,不僅在案件的辦理階段,而是覆寫整個業務流程,即便天同沒有代理但進行過分析論證的案件,也将提供大資料分析的階段性結論供客戶參考。具體來講,天同律師在業務流程中進行大資料分析的一般過程如下:

前期論證階段,解決文檔電子化和案件難度預判的問題,對案情宏觀結構進行解構和初步标簽化處理,為下階段大資料分析進行準備工作。

磋商代理階段,解決案件勝率判斷和律師費用計算問題,案件的勝率取決于外部司法環境、管轄地、對方律師等,還取決于案件内部主要争議證據材料的掌握情況、法律适用、代理經驗等因素。例如,将證據材料與待證事實之間的關聯關系作為标簽,對這種關聯關系是否成立進行大資料分析,故我們能夠基于大資料分析,對證據與案件事實間的關聯關系進行評估(大資料思想:隻問關聯關系,而不問因果關系),進而結合其他因素對案件勝率進行評估。律師費用的計算,不妨也采用大資料分析,對同類案件的市場平均價格快速擷取并統計,結合案件難度為天同的訴訟代理尋求合理報價。

案件辦理階段,随着案件資訊的更新,事實争議和法律争議已經逐漸清楚,這一階段的大資料分析集中在案外相關因素的分析上,為争議的本質提供新的洞見,或者新的證據,例如審理法官的相關觀點、糾紛産生時所在行業的資料,最新商事審判的價值判斷,以及相關的“天同碼”。

結案歸檔階段,評估大資料分析的使用效果,并對标簽及其邏輯結構的知識進行歸檔,完善案件标簽化體系(中繼資料方法);将前期的預判結果與最後的裁判結果進行比對,進而對此類案件的标簽化方法進行調整。

天同訴訟大資料運作機制,在總體設計上,由一大流程、兩大系統組成,即“标簽判斷流程、大資料檢索系統、大資料統計分析系統”每個流程或系統都具備資訊輸入和輸出的功能,是大資料分析中資訊處理加工的中間環節,最後形成的成果形式是“為案件提供更多有價值的知識 ”。

小律所,大資料:訴訟的資料化時代

最終目的:天同訴訟大資料戰略,最終目的在于為高端訴訟提供更多的了解視角,為訴訟案件提供更多的洞見和了解,在天同的業務流程的每個階段充分運用大資料分析的方法,使得天同“三大訴訟法寶”——訴訟可視化、模拟法庭、大資料與知識管理能夠融會貫通、互相配合,確定“三大訴訟法寶”成為天同訴訟業務的核心競争力。使得天同的訴訟大資料與知識管理工具被業界廣泛知曉,更好地為我們的客戶提供訴訟法律服務。

<b>原文釋出時間為:2014-04-19</b>

<b></b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>

繼續閱讀