5月26日向星力•未來資料技術峰會上,星環科技資料安全管理平台 Defensor 釋出 4.0 版本,新版本引入大模型,可實作智能化自動化分類分級,幫助企業盤點敏感資産。同時,Defensor 聯合星環科技資料 API 安全網關 Midgard、資料庫監測與審計軟體Audit 等資料安全産品可幫助企業建構事前可知可防、事中可控、事後可查的全鍊路資料安全防護體系。
事前可知,基于大模型的智能化分類分級
事前階段,Defensor 可以幫助企業梳理敏感資産,形成敏感資産清單,同時明确敏感資産分布情況,并對敏感資産後續的通路進行權限和政策的配置。
以銀行的資料分類分級為例,銀行的分類分級标準包含四個層級,超過 200 個資料類型,如果通過人工把幾十萬字段打到對應的四級标簽下,工作量非常龐大。同時,銀行各類資料分布在不同部分,跨團隊協作非常困難,導緻效率低下。為了解決上述問題,星環科技在 Defensor 4.0 版本預制了金融行業的分類分級大模型,可以做到開箱即用,自動化、智能化地幫助企業做分類分級。引入大模型後,分類分級的準确率有較大的提升。
圖中展示了大模型分類分級的流程,首先對中繼資料字典做預處理,進行語義的加工、中文的擴寫以及短語的規範化。在此基礎上,引入基于金融行業預訓練的微調大語言模型,對他的背景進行預測,再對四級子類做精準預測,確定某一個字段能歸到對應的、正确的二級大類下的四級子類。最後,對于異常的、錯誤的知識點,Defensor 也引入了增強效果回報系統,通過少量人工補錄的流程,可以形成一個模型的疊代,再做一次預訓練,同時慢慢形成高品質、高可用、準确率高的金融行業分類分級大模型。
下圖是引入大模型之後分類分級的效果對比圖,其中時間縮短到原本的10%,準确率相比傳統機器學習提升 50%,機關人力成本降低 80%。
該模型架構也适用于其他行業、其他領域的分類分級工作,我們隻需要給模型提供一點知識、一點樣本資料,就可以幫助企業做到智能化的分類分級和資産盤點,并最終出具一個分類分級的清單報告。
事中階段,根據政策做到事中阻斷或動态脫敏
梳理好企業的敏感資産之後,需要對敏感資産進行安全防護,這是資料安全防護的最終目的。目前,企業資料脫敏場景普遍存在如下痛點:
第一,企業測試環境經常需要從生産環境取數,滿足日常 APP開發要求。這種情況下,敏感資料需要進行脫敏,面對測試環境和生産環境中跨越脫敏的情況,由于企業的資料量越來越膨脹,會出現大量資料脫敏太慢的問題。
第二,企業需要精确定義脫敏資料的範圍,比如基于時間分區的表,需要脫敏一個月還是一周的資料,如何精确定義脫敏資料的範圍,也是一個亟待解決的問題。
第三,資料脫敏之後,如何保證下遊業務能夠順利使用?脫敏之後,資料本身的業務價值會一定程度的變少,或者導緻業務系統無法使用脫敏之後的資料,我們面臨如何保證資料脫敏後業務繼續正常運作的難題。
第四,實時防護場景,比如對實驗室的分析是及時的查詢,而且會牽扯到多表的關聯查詢。這種情況下,傳統的靜态脫敏流程時間太長、實時性不夠,而且有多角色、多使用者體系,如何做防護是一個問題。
針對上述問題,Defensor 都提供了相應的能力。
在大資料量脫敏場景中,星環科技依靠分布式高性能計算的資料積累,提供了高性能分布式脫敏産品方案。Defensor 脫敏引擎是分布式架構,支援節點橫向擴充。以銀行為例,星環科技的分布式脫敏引擎與現有脫敏系統相比,從資料的導入、脫敏到卸數,再導回到原來的系統,效率提升10倍。
面對下遊業務無法使用問題,Defensor 提供了豐富的脫敏方法。對于數值類資料,統計脫敏算法能保證資料的數學特征,比如最大值、最小值、平均值。而仿真脫敏,能保證脫敏後的資料依舊保持資料的特征,比如姓名、身份證、郵箱、位址等。同時,Defensor 還具備差分隐私能力,在資料探索場景下,需要對原始資料進行保護,引入差分隐私對資料進行噪聲,可以解決差分攻擊。
針對實時查詢的動态防護,Defensor提供企業級統一的資料安全通路政策中心。基于資料安全的整體設計架構,為全域、全生命周期的安全防護建立最基礎最可靠的安全政策中心:為星環科技及第三方資料平台、資料庫、中間件等相關産品提供統一的資料安全政策,進而形成整體的資料防護和敏感監測等能力:新版本支援細粒度資料庫使用者行列權限配置,可直接下發到Inceptor/ArgoDB/KunDB,實作庫内安全通路。
事後溯源,敏感資料行為監測與審計
在事前可知、事中可控的階段,Defensor 提供了分類分級、敏感資料合規使用、安全政策制定與下發等能力。在這兩個階段我們幫助企業梳理了敏感資産清單,并且制定一系列敏感資産防護政策。但是這些能力是否落實到位,就需要審計溯源工具。首先,通過收集企業資料庫審計日志或者鏡像流量,拉到資料安全審計工具裡面來,通過預定規則進行分析。
比如,基于使用者、時間或者裝置IP的次元去規定企業有哪些人,哪些裝置,哪個時間段通路企業敏感資産,一旦發現違規敏感資産通路,立刻告警,同時還會跟預定政策進行比對,如果敏感資産通路沒有按照預先設定好政策執行,就是高危風險操作,會及時發出郵件告警,告警之後提供相關日志的解鎖和關聯分析能力,去判别風險事件發生上下文的曆史事件進行追溯,達到事後溯源的目的。
星環科技安全審計産品的核心競争力在于,我們用到了資料庫對于 SQL 解析的能力,一個 SQL 語句我們可以解析出這個SQL所包含操作的庫、表、列以及它的關聯度的庫、表,再跟之前分類分級結果進行比對,就可以知道這個SQL語句到底有沒有通路到企業資料庫裡的敏感字段,再通過白名單機制,對敏感字段做安全的事後防護。