目前各級檔案館面向社會公衆開放檔案以供查詢利用,滿足公衆檔案利用需求,最大化發揮檔案價值已是大勢所趨。《“十四五”全國檔案事業發展規劃》提出:“着力推動檔案工作走向依法治理、走向開放、走向現代化”。2020年新修訂的《檔案法》要求:“縣級以上各級檔案館的檔案,應當自形成之日起滿二十五年向社會開放。”
國家檔案局第19号令《國家檔案館檔案開放辦法》第七條指出:“自形成之日起滿二十五年的國家檔案館的檔案,經開放稽核後無需限制利用的應當及時向社會開放。經濟、教育、科技、文化等類檔案,經開放稽核後可以提前向社會開放。”以上法規、政策為檔案開放利用指明了方向。但受制于開放稽核标準和程式不統一、不具體以及檔案開放稽核人員不足等因素,檔案開放稽核工作進展緩慢。
Part 1
AI技術助力檔案開放稽核
随着AI技術的迅猛發展,通過AI技術推動檔案開放稽核向前快速發展已成為現實。過往檔案開放稽核應用主要依賴于敏感詞過濾、自然語言處理(NLP)等技術,存在遷移學習能力不強、适應面窄、語義分析能力弱等諸多技術問題,無法大幅降低合規遵循、隐私保護等風險,而采用基于定制化訓練模型的檔案開放稽核系統能夠很好解決以上問題。
在檔案開放稽核領域,定制化訓練模型對比自然語言處理技術的優勢如下:
- 上下文了解:定制化訓練模型能夠更好地了解文本上下文關系,而不僅僅根據目前狀态預測下一個狀态。能夠了解複雜語境,尤其長文本或大容量文本。
- 語義了解:定制化訓練模型能夠更準确地捕捉詞語的語義資訊,能夠深層次的了解和分析文本。
- 泛化能力:定制化訓練模型具有較強的泛化能力,可以适應各種文檔類型和領域。
- 端到端學習:定制化訓練模型支援端到端學習,中間不需要太多預處理或人工特征提取,更好适應複雜任務,簡化流程。
- 遷移學習:定制化訓練模型遷移學習能力強,在具體任務上能夠快速部署和展示能力。
Part 2
檔案開放稽核模型架構
除定制化訓練模型之外,還需綜合智能OCR識别、公章檢測、公章OCR識别、圖像識别、圖像比對、語義識别、自然語言處理技術建構AI檔案開放稽核系統,可自定義稽核規則,智能開展檔案開放稽核工作,可視化展現稽核過程和結果,系統架構如下圖所示:
Part 3
檔案開放稽核實作路徑
第一步:文檔預處理
· SM檔案篩查
因SM檔案不開放,首先要對預開放文檔進行SM篩查,将檢出的SM檔案剔除出開放稽核隊列。
基于神經網絡、自然語言處理、深度學習等AI技術建構的SM檔案智能篩查子系統,可自動分析非結構化電子檔案,識别文本中的密級辨別,對SM檔案進行高效篩選。
· AI-OCR識别
采用AI-OCR識别技術,對所有掃描的數字化副本進行文字識别,印刷體識别準确率可達99%,橫排手寫體識别準确率可達95%。經OCR識别後生成文本資訊,再通過自然語言處理和大語言模型技術處理形成資料化資訊,為檔案開放稽核奠定資料基礎。
· 公章檢測
采用深度學習、計算機視覺處理技術,經過文檔/圖像預處理、目标檢測模型、生成候選區域、公章分類與後處理等流程,實作公章自動檢測。
· 公章OCR識别
在公章檢測的基礎上,采用OCR識别、圖像預訓練模型技術,對公章内部文字資訊進行檢測、識别。公章OCR識别差別于普通OCR識别,是專門針對公章内部文字(一般為機關名稱或人名)的檢測和識别,需專門訓練公章OCR識别模型。
· 圖像識别與比對
采用計算機視覺處理、圖像預訓練模型技術對檔案數字化副本進行檢測、識别,輔助提高AI-OCR識别準确率、公章檢測和OCR識别準确率。
· AI文檔分類鑒定
AI文檔分類鑒定子系統可自動分類文檔,實作對文本與圖像内容的分類識别,輔助開放稽核系統快速判斷文檔類型并與稽核規則比對,進一步提升開放稽核效率。
第二步:建構規則庫
根據相關法規政策,将已知稽核規則簡要彙總如下:
第三步:根據規則庫确定技術實作方法
可将技術實作方法分為如下六類:
第四步:配置規則與實施鑒定
基于上述三步實施開放稽核工作,過程如下圖所示:
第五步:優化開放稽核模型
AI檔案開放稽核系統的成熟度取決于開放稽核模型的成熟度,在開放稽核過程中需根據人工稽核回報結果不斷優化模型,特别針對“假陰性”(模型預測為開放,人工稽核為受控,來自混淆矩陣概念)樣本進行強化訓練,不斷提高開放稽核準确率。
由于檔案開放稽核業務場景的特殊性,在軟體研發過程中開放或受控二分類大容量樣本/語料難以擷取,一般采取如下方法提高準确率名額:
以上是有限樣本情況下通過特定方法提高開放稽核模型準确率的一些技術手段。
第六步:實施部署
· 離線部署
可購買或租用AI檔案開放稽核一體機,以離線方式開展開放稽核工作。若采用租賃方式完成項目後,一體機内的存儲載體(硬碟)将留給租用機關。
· 系統內建部署
AI檔案開放稽核系統提供接口與檔案系統或其他系統內建,通過線上接口調用的方式開展開放稽核。
Part 4
實踐驗證
經某項目實際驗證:樣本檔案20萬件,AI檔案開放稽核系統初次鑒定精确率達100%,準确率達99%,通過對“假陰性”樣本進行針對性訓練,第二次鑒定準确率達到100%。
注:精确率=TP/(TP+FP),準确率=(TP+TN)/(TP+TN+FP+FN)
當然,AI檔案開放稽核模型隻是行業定制化訓練模型,畢竟不是通用模型,其準确率受訓練樣本資料的影響,存在一個場景适用性的問題。也就是在某一家機關的某個項目上取得了很好的效果,不一定就能滿足另一家機關另一個項目的需求。是以,軟體開發者應盡可能深入應用一線,通過與檔案保管機關聯合開發/合作的方式,經曆多項目或多場景曆練以不斷提高模型準确率。