天天看點

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

伴随企業業務的不斷擴增和電子化發展,企業自身資料和負載資料都開始暴增。然而,作為企業核心資産之一的内部資料,卻面臨着日益嚴峻的安全威脅。越來越多以周期長、頻率低、隐蔽強為典型特征的非明顯攻擊繞過傳統安全檢測方法,對大量資料造成損毀。

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

目前,使用者實體行為分析(User and Entity Behavior Analytics,UEBA)系統正作為一種新興的異常使用者檢測體系在逐漸颠覆傳統防禦手段,開啟網絡安全保衛從“被動防禦”到“主動出擊”的新篇章。是以,将主要介紹UEBA在企業異常使用者檢測中的應用情況。

首先,通過使用者、實體、行為三要素的關聯,整合可以反映使用者行為基線的各類資料;其次,定義4類特征提取次元,有效提取幾十種最能反映使用者異常的基礎特征;再次,将3種異常檢測算法通過內建學習方法用于異常使用者模組化;最後,通過異常打分,定位異常風險最大的一批使用者。

在實踐中,對排名前10的異常使用者進行排查,證明安恒資訊的UEBA落地方式在異常使用者檢測中極其高效。随着網際網路技術的日益發展和國家在大資料戰略層面的深化推動,資料采集終端越來越多,收錄的種類越來越豐富,資料已經成為企業重要乃至最核心的資産之一。

在資料價值受到高度重視的同時,企業面臨的各種針對資料安全威脅的問題也愈發嚴重,資訊安全保障逐漸聚焦為資料的安全保障。通常情況下,外部攻擊種類繁多、持續高頻,企業習慣于将資源布置于構築安全防護堡壘,以抵禦來自外部的進攻。然而,除了外部的黑客攻擊,内部人員參與資訊販賣、共享第三方的違規洩露事件也層出不窮。

調查顯示,約有75%的安全威脅是從組織内部發起的。無論是離職員工順走專利資料,還是心懷怨恨的員工蓄意破壞系統,一再發生的各種安全事件證明,攻破堡壘的最容易的方式往往來自内部威脅。面對這種威脅,内外雙向的安全需求催生了使用者實體行為分析(User and Entity Behavior Analytics,UEBA)。對内,傳統威脅防禦手段不足。對于已經意識到問題緊迫性的企業而言,使用傳統的安全技術并未能幫助他們有效解決來自内部的安全問題。

原因在于傳統方法多為分散的、事後的、缺少針對性的。安全最薄弱的環節是人,隻有建立以使用者為核心對象的分析體系,才能更加及時發現和終止内部威脅,杜絕資訊洩漏于萌芽狀态。對外,市場需求推動技術更新。

作為一種進階網絡威脅檢測手段,UEBA發展迅速,甚至正在颠覆原有市場格局。UEBA是基于大資料驅動、以使用者為核心、關聯實體資産、采用機器學習算法進行異常分析以發現解決内部威脅的一套架構和體系。

相較于傳統手段對安全事件的關注,UEBA更關心人,通過使用者畫像和資産畫像,檢測諸如賬号失陷、主機失陷、資料洩漏、權限濫用等風險,以極高的準确率定位異常使用者。

1 企業員工賬号的關聯

UEBA本質上屬于資料驅動的安全分析技術,需要采集大量而廣泛的使用者行為類資料。大資料時代,資料是一切分析的基礎,少量的或者品質不高的輸入必然導緻價值不高的輸出。然而,這并不意味着資料純粹的越多越好,與場景不相關的資料,過多收集隻會增加系統負擔。

是以,行為分析的基礎是資料,資料采集的前提是場景,采集的資料要和分析的特定場景相比對,高品質多種類的資料是使用者實體行為分析的核心。使用者實體行為分析可以使用的資料,包括安全日志、網絡流量、威脅情報以及身份通路相關日志等,盡可能多地接入和使用者場景相關的資料,常見如VPN日志、OA日志、員工卡消費日志以及門禁刷臉日志等。

可以将這些資料大緻歸納為使用者身份資料、實體身份資料和使用者行為資料3種類型。使用者身份資料分為兩類:一類是真實身份資料,如人事部門提供的員工資料;一類是虛拟身份資料,如使用者在網絡上的注冊資料。由于UEBA嚴重依賴高品質資料,使得企業需要有資料治理的基礎能力,需要有統一的資料字典。

通過統一資料字典,可以統一不同日志的字段資訊,進而關聯不同日志的使用者資訊,通過關聯真實身份與虛拟身份,達到定位具體的使用者的目标。實體身份資料是網絡中使用者的唯一身份辨別,如IP位址、MAC位址等。使用者行為資料分類則可分為網絡行為資訊和終端行為資訊。

2 員工賬号與實體資産的關聯

員工賬号與實體資産的關聯,即使用者身份資料與實體身份資料的關聯,它們通過使用者行為資料實作關聯。例如,某使用者登入VPN,通過登入日志的使用者資訊相關字段,可以定位使用者的身份資訊。使用者使用VPN通路公司内網,通過通路日志的目标位址資訊相關字段,可以定位實體資産的身份資訊,擷取會話期間終端日志資訊,同時也實作員工賬号與實體資産的關聯。

通路日志的擷取有多種形式,可以是VPN裝置自身記錄的日志,也可以是其他安全裝置的記錄日志,如深度包檢測(Deep Packet Inspection,DPI)系統日志。所謂“深度”是和普通的封包分析層次相比較而言的。

“普通封包檢測”僅分析IP包4層以下(實體層、資料鍊路層、網絡層、傳輸層)的内容,包括源位址、目的位址、源端口、目的端口以及協定類型。而DPI除了對前面的4層進行分析外,還增加了應用層等其他層的分析,識别各種應用及其内容。DPI系統提供的審計資訊、應用程式會話識别資訊、應用程式會話流量統計資訊、網絡傳輸層流量統計資訊、應用層流量統計資訊等,可以極大豐富使用者網絡行為資訊。終端日志可以通過終端檢測與響應(Endpoint Detection and Response,EDR)系統擷取。

EDR日志可以幫助采集終端的記憶體操作、磁盤操作、檔案操作、系統調用、端口調用、網絡操作、系統資料庫操作等,通過分析程序行為、應用行為以及服務行為等,補全使用者終端行為資訊。通過使用者網絡行為與終端行為等資訊整合,可以完成使用者與實體的關聯,同時也完整地還原了使用者的網絡會話和會話期間的使用者行為,為後期的行為分析提供高品質的資料素材。

3 基礎特征提取

使用者行為特征提取是整個使用者行為分析模組化的基礎,需結合業務實際需求,找出相關的資料實體,以資料實體為中心,規約資料次元類型和關聯關系,形成符合業務實際情況的模組化體系。一般的特征提取步驟包括使用者資料與實體資料的分解和對應、實體間關聯關系分解、使用者特征次元分解以及使用者行為特征的提取。

相比算法層面的精進,有效提取資料特征經常會取得更直接的收益,能夠展現資料的基本屬性和業務邏輯的特性,甚至僅需要使用簡單的模型就能取得很好的結果,而備援的無邏輯特征不僅無益于模組化,甚至會降低分析的精度與速度。在特征提取的設計中,專家知識至關重要。經驗往往是取得成果的捷徑,但是在實際情況中總會遇到一些陌生的場景,缺少經驗知識,這時邏輯和方法論顯得更為普适。

通常采用4類通用的次元來提取使用者行為特征,分别是使用者與使用者之間行為基線的對比、使用者組與使用者組之間行為基線的對比、基于使用者自身行為基線對比的離散資料特征提取和基于使用者自身行為基線對比的連續資料特征提取。第1類次元是使用者與使用者之間行為基線的對比。

基于大部分使用者行為是正常的原則,通過使用者與使用者之間的行為基線對比,可以發現偏離叢集基線的少數使用者。在某一個特征次元上,這些少數使用者就是疑似異常的。典型事件為非工作時間的使用者行為異常。

通常情況下,員工對公司内部資源的通路應該在工作時間,任何非工作時間的行為都應該重點關注。那麼,如何定義非工作時間呢?不同行業不同性質的企業,工作時間會有較大差别。國企與民企、傳統産業與新興産業,工作時間段上存在比較大的偏差。

此外,同一領域的不同企業也有各自的加班文化,不能排除很多員工在考勤外時間通過VPN通路内網是用于正常工作的可能。是以,基于對所有員工的曆史行為記錄,通過核密度估計(Kernel Density Estimation,KDE)計算一天24 h每個時間點使用者通路資源的機率密度,将機率低于動态門檻值的時間點定義為非工作時間,進而把員工在非工作時間段産生的行為提取為一個異常特征。

圖1為某公司的員工賬号24 h線上機率密度分布圖,可得賬号在白天工作時間線上的機率最大。當動态門檻值為0.01時,可以看出該公司的員工在淩晨3點到淩晨6點的線上機率最小。在淩晨0點到淩晨3點,該公司還有部分員工在使用VPN加班工作,說明該公司加班嚴重,加班到淩晨一兩點是常态。

如果直接定義晚上22點到早上6點為非工作時間,将導緻較多的誤報,而利用該類特征,能夠自适應地學習該公司真正的非工作時間。

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

圖1 使用者賬号24小時線上機率密度分布

第2類次元是使用者組與使用者組之間行為基線的對比。一般而言,在企業内部處于同一個部門相似崗位的員工應該有類似的行為基線,不同部門之間如技術部門與銷售部門工作上有較大差異,反映在網絡行為和終端行為上肯定會有較大不同。一個易于了解的事件是,基于不同角色屬性的員工通路統一資源定位符(Uniform Resource Locator,URL)記錄的聚類。

顯然,同角色屬性或者同部門的員工應該會有更多共同通路對象和通路目的。根據日志資訊,建立使用者和一段時間内被通路較多的或者業務相關的URL的關聯矩陣。矩陣元素可以是通路次數、通路時長或者平均通路時長,利用歐式距離計算客戶之間的距離,并進行聚類操作。

對遠離自身角色所在部門群組的使用者可以标記為異常,同時基于使用者與群組中心的距離給出偏離度,針對異常出現的偏離程度,可提取通路異常特征。偏離度的計算公式如下:

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

式中,

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

代表第i個使用者的偏離度;

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

代表第i個使用者與類簇中心距離;

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

代表同組使用者與類簇中心的平均距離。圖2為技術部門與銷售部門在通路次數、通路時長上的聚類圖,圓圈代表技術部門,三角形代表銷售部門,五角星代表這兩個組的聚類中心,兩個類簇中間散落的幾個使用者可以明顯看出異常。如果不分使用者組,那麼圓圈中的三角形将被認為是正常使用者;現在區分使用者組進行聚類,則可以明顯看出,這些混雜在圓圈中的三角形離實際的聚類中心很遠,是異常最大的使用者。

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

圖2 使用者組聚類結果

第3類次元是基于使用者自身行為基線對比的離散資料特征提取。通過學習大量的曆史行為資料建立正常的使用者基線後,可以對偏離曆史基線的使用者行為提取異常特征。典型事件是使用者使用新的IP位址。一個沒有在曆史記錄中出現的IP位址,意味着使用者的活動基線偏離了原有的軌迹,當然也可能是諸如使用者出差等客觀原因造成的。

但當結合其他的一些資訊如新IP位址伴随着新的MAC位址,這意味着使用者不僅變更了登入位址,也變更了登入裝置,加重了可疑度。如果還有其他的資訊輔助,或者使用者的新IP位址不斷出現,需要将這類現象歸納為疑似異常。

是以,通過一些場景的設想,可以基于使用者自身行為基線提取離散資料的異常特征。第4類次元是基于使用者自身行為基線對比的連續資料特征提取。通過學習使用者的連續資料的行為基線,可以對偏離曆史基線的使用者行為提取異常特征。舉例來說,使用者正常的網絡行為都應該有在一定範圍内波動的出入流量,DPI系統可以幫助記錄每次通路目标的流量情況。

使用者的出入流量是連續變量,應該滿足某種分布。假設使用者的通路流量持續大幅遠離了曆史分布,則有理由懷疑使用者使用習慣發生了改變,需要對此加以關注。通過使用RPCA-SST、ARIMA等算法對這類連續的時序資料進行異常檢測,進而提取出異常特征。

圖3為某使用者在6月份的流量時序圖,實線為實際的流量時序,陰影為時序異常檢測算法拟合的正常範圍。超出預測範圍的點被标記為異常,為圖3中的圓點。根據異常點的個數及異常程度,能提取出該使用者的異常特征。

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

圖3 時序異常檢測

4 基于Ensemble Learning的異常使用者檢測

使用者異常行為模組化的3大要素為使用者、實體和行為特征。通過通路關系的關聯,将3大要素映射到核心的使用者行為上。經過第3章節介紹的4類次元的分解,提取了幾十種有效的使用者行為特征。擷取特征後,即能使用機器學習算法檢測異常使用者。

由于内部攻擊并不經常發生,标簽資料的稀少性決定了多數情況下UEBA使用的是無監督學習算法。從另一個角度說,不依賴先前的攻擊知識反而允許系統發現少見的和過往未曾發現的威脅。異常檢測的主要任務是在正常的使用者資料集中提取出小機率的異常資料點,這些異常點的産生不是由于随機偏差,而是有如故障、威脅、入侵等完全不同的機制。

這些異常事件的發生頻率同大量的正常事件相比僅僅是少數的一部分。異常檢測算法衆多,它們的期望盡管都是盡可能分離出正常資料與異常資料,但其原理各不相同。針對不同的資料源,很難保證哪一類算法能夠取得最優的結果。采用孤立森林、One Class SVM以及局部異常因子3種算法的內建來全面識别和評價最可能影響系統的各種異常使用者。

利用這3種算法進行異常檢測,可以分别得到所有使用者的異常打分。對3種算法結果進行權重歸一,便可以得到最終的針對所有使用者的異常打分排名。利用這些資訊,企業可以按照一定的邏輯順序,采用适當的對策處理現存的威脅,并按輕重緩急實施補救措施。

整個UEBA的核心系統架構如圖4所示。每個算法都會對使用者i計算一個獨立的異常分值。孤立森林、One Class SVM、局部異常因子3種算法的幾個分别記為

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

其對應的權重分别為

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

則最終的異常評分Score為:

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

圖4 UEBA核心系統架構

5 實驗結果分析及案例

表1為排名前20的異常使用者分值及部分特征值,使用者名用Hash做了脫敏處理。對排名靠前的異常使用者一一驗證,在排名前10的使用者中,确認了包括賬号第三方共享、主機中毒、惡意掃描、離職員工潛入内網以及敏感資訊被違規拉取等問題,賬号風險準确率達到90%。表1 排名前20異常使用者分值及部分特征值

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

使用者446983413異常排名居首,對其異常特征進行排查,發現存在賬号爆破、異地登入、端口掃描、從OA系統下載下傳檔案以及傳輸流量過大等異常,最終安全運維人員确定為因VPN賬号被爆破導緻的敏感資訊洩露事件。它在時間軸上的發生順序如圖5所示。

基于機器學習的使用者實體行為分析技術在賬号異常檢測中的應用

圖5 使用者446983413相關事件時間軸

6 結 語

本文介紹了UEBA即使用者行為實體分析在企業異常使用者檢測中的應用情況,通過使用者、實體、行為3要素的關聯,整合了可以反映使用者行為基線的各類資料,将使用者的行為特征提取分布到4類次元上展開,有效提取了幾十種最能反映使用者異常的基礎特征。

将3種異常檢測算法通過內建學習方法用于異常使用者模組化,通過異常打分定位最可能異常的使用者,對排名前10的異常使用者進行排查,驗證證明存在問題的準确率達到90%。企業最開始部署UEBA系統時,基本不會有使用者賬号的标簽。

經過一段時間的使用及排查,會逐漸積累使用者賬号的标簽,這樣整個系統的算法漸漸可以從無監督過渡到有監督,進而可進一步提升準确率。通過這樣的正向循環回報強化,最終會築起堅固的安全防線。

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/live

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-05-13

本文作者:資訊安全與通信保密

本文來自:“

51CTO

”,了解相關資訊可以關注“