天天看點

基于內建的網絡安全使用者行為異常檢測和分類架構

作者:月亮灣探險家
基于內建的網絡安全使用者行為異常檢測和分類架構

文|月亮灣探險家

編輯|月亮灣探險家

基于彈性堆棧(ELK)的架構

如今,使用者和應用程式日志的速度如此之快,如果不使用高性能系統和平台,幾乎不可能對其進行實時分析。

在網絡安全中,人類行為是最常見攻擊(即勒索軟體和網絡釣魚)的直接或間接原因。

為了監控使用者行為,有必要處理來自不同和異構來源的快速使用者日志,其中缺少部分資料或某些完整來源。

基于內建的網絡安全使用者行為異常檢測和分類架構

為此,提出了一種基于彈性堆棧(ELK)的架構來實時處理和存儲來自不同使用者和應用程式的日志資料。

該系統利用基于ELK的軟體架構和Kubernetes平台的優勢,生成一組模型來對使用者行為,進行分類并實時檢測異常。

此外,分布式進化算法用于通過利用來自許多資料源的數字足迹對使用者進行分類。

基于內建的網絡安全使用者行為異常檢測和分類架構

在兩個真實資料集上,進行的實驗驗證了該方法在檢測使用者行為異常、處理丢失資料和降低誤報數量方面的優勢。

近年來,由于網絡犯罪嚴重威脅着國家政府和許多行業的經濟,許多行業和政府對網絡安全風險的考慮不斷增加。

是以,必須采取适當和及時的對策來保護系統的安全漏洞和弱點免受潛在攻擊,以最大限度地減少所有風險。

基于內建的網絡安全使用者行為異常檢測和分類架構

此外,計算機網絡活動、人類行為等都會産生大量的資料,在設計網絡安全保護的系統和架構時必須考慮這些資料。

使用者行為可能會導緻多種漏洞;例如,他們可以為多個工作和個人應用程式使用易于猜測的密碼,并且過度信任社交網絡和技術的使用。

2021 年,由IBM威脅情報指數中,勒索軟體是最主要的攻擊類型 (21%),利用網絡釣魚進行初始通路的攻擊百分比約為 41%,兩者均主要由使用者行為引起。

基于內建的網絡安全使用者行為異常檢測和分類架構

通常,這些行為或随之而來的漏洞是在攻擊已經發生時進行分析的;相反,有必要采取積極主動的方法來避免啟用這些漏洞。

是以,在人為因素導緻的安全弱點下運作的系統必須考慮幾個關鍵方面,例如分析使用者以獲得更好和更有針對性的行動,實時分析大型日志以及在丢失資料的情況下高效工作。

分布式資料挖掘和機器學習技術可用于有效打擊并減輕影響或防止網絡犯罪分子的行為,尤其是在存在大型資料集的情況下。

基于內建的網絡安全使用者行為異常檢測和分類架構

特别是,分類被有效地用于許多網絡安全應用程式,即使用者行為分類、風險和攻擊分析、入侵檢測系統等。

在內建學習範式中,多個分類模型通過預測算法進行訓練,然後将它們的預測組合起來對新的元組進行分類。

這種範式相對于使用單一模型有幾個優點,即它減少了誤差的方差、偏差和對單一資料集的依賴,并且在不平衡類的情況下效果很好;此外,內建可以逐漸建構,并且可以輕松地在分布式環境中實作。

基于內建的網絡安全使用者行為異常檢測和分類架構

通常,使用者配置檔案的分類或聚類通常用作改進異常使用者行為檢測和檢測可能異常的初步任務。

實際上,在監督(或半監督)異常檢測方法中,分類任務用于将使用者的正常行為與異常行為區分開來。

這兩種技術的主要差別在于,該算法必須在受監督的異常檢測中分析包含正常和異常行為的資料流。

基于內建的網絡安全使用者行為異常檢測和分類架構

相反,在半監督技術中僅包含有關正常行為的資料。我們的系統遵循半監督方法,因為在現實世界中,很難有足夠數量的“真實”異常來訓練分類算法。

然而,由于異常檢測或分類任務是有效的,是以必須采用高效的資料索引來實時處理異構且通常不平衡的資料日志。

此外,這些算法需要搜尋和查詢與使用者行為相關的大資料,對實際海量資料集的全文搜尋有嚴格的要求。

基于內建的網絡安全使用者行為異常檢測和分類架構

為了克服上述問題,我們提出了一個基于彈性堆棧的架構來處理和存儲來自不同使用者的資料,并生成一組分類器來對使用者行為進行分類,并利用這種分類來有效地檢測他們行為中的異常。

ELK提供的高性能架構

在實踐中,該系統使用ELK提供的高性能架構,運作在基于 Kubernetes 的平台之上,并采用分布式進化算法根據從許多日志中派生的數字足迹對使用者進行分類。

此外,作為一項新的結果任務,該架構允許對使用者行為異常進行個性化。

基于內建的網絡安全使用者行為異常檢測和分類架構

實際上,之前介紹的分類算法,在這裡用作識别可能異常的初步步驟,方法是将一類風險與使用者,的通常行為相差預定義門檻值的所有元組相關聯。

然後,異常檢測任務被重新表述為使用者/組識别任務的組合,遵循數字足迹屬于其相應使用者/組的機率越低,異常行為越多的原則。

在兩個真實資料集上進行的實驗驗證了該方法在檢測使用者行為異常、處理丢失資料和降低誤報數量方面的優勢。

基于內建的網絡安全使用者行為異常檢測和分類架構

它可用于防止與人為因素相關的網絡安全問題的不同任務,例如使用者配置檔案和風險的分類以及誤用/濫用使用者行為的異常檢測。

人們越來越關注監視使用者行為和操作的任務,并使用基于機器學習的方法來分析生成的日志,以最大限度地減少或防止網絡安全風險或欺詐。

大多數作品源自使用者與計算機、網絡或社交網絡的互動方式。例如,利用使用者會話期間的滑鼠速度、距離、角度和點選次數等資訊進行使用者識别和僞裝檢測。

基于內建的網絡安全使用者行為異常檢測和分類架構

采用SVM(支援向量機)機器學習算法,檢測率高達96%,誤報率極低。

這種方法的優點是首先引入了對來自與GUI互動的資料的分析。盡管如此,它仍無法應對缺失的功能和不同的資料源。

分析使用者(正常)行為,不僅要考慮計算機使用情況,還要考慮網絡資源。

他們通過使用基于最小描述長度(MDL)原則的改進算法來提高決策樹分類模型的泛化性能。

與之前的工作一樣,沒有考慮丢失的資料,而且該方法也不适用于快速日志流。

作者根據不同會話期間配置檔案使用者的正常使用模式來處理異常檢測任務。

主要是,通過監控應用程式使用情況、應用程式性能(CPU和記憶體)、使用者通路的網站、使用者打開的視窗數量以及他們的打字習慣來對使用者行為進行模組化。

基于內建的網絡安全使用者行為異常檢測和分類架構

實驗結果表明,與身體相關的特征與分析使用者行為相關,并且結合這些特征可以顯着減少檢測時間。

這種方法提高了處理資料日志的效率,但與我們的系統不同的是,它沒有考慮不同的資料源,也沒有利用使用者組的資訊。

從許多異構資料源(即滑鼠、鍵盤、程序和檔案系統通路)建構了一個包含24 個使用者的資料集,其中混合了正常和惡意活動,用于測試僞裝者和叛徒活動的算法。

基于內建的網絡安全使用者行為異常檢測和分類架構

他們進行了多項統計來分析這個資料集,但沒有采用先進的機器學習技術。

基于使用者日志資料的三類資料集的使用:使用者每日活動摘要、電子郵件内容主題分布和使用者每周電子郵件通信曆史。

然後,在每個資料集上獨立訓練異常檢測模型。實驗結果表明,所提出的架構可以很好地适用于隻有少數内部威脅的不平衡資料集,并且沒有提供領域專家的知識。

基于內建的網絡安全使用者行為異常檢測和分類架構

這種方法的局限性在于開發的模型沒有像我們的方法那樣與內建或其他東西相結合;是以,他們很難處理丢失的資料源。

數字足迹及其在異常檢測中的應用

本節介紹本文中使用的異常檢測方法以及選擇作為此任務輸入的日志資料(數字足迹)的不同來源。

分析使用者行為,既是為了将使用者分類到同質類别中,也是為了檢測他們行為中的異常情況,需要處理不同的資訊來源,其中一些資訊缺失并具有異質特征。

基于內建的網絡安全使用者行為異常檢測和分類架構

事實上,使用者資料集可以包括人口統計和教育資訊,例如姓名、年齡、國家、教育水準、計算機知識、任務知識等。

并且還可以包括關于使用者在其中進行操作的比賽以及他們在系統中的角色的資訊。

除了這些資料(如果我們考慮合理的時間量通常不會改變)之外,還有必要收集操作和行為資料(例如,使用者連接配接到系統的 IP 位址、作業系統和使用的浏覽器、持續時間)會議等,還應考慮随時間的變化。

基于內建的網絡安全使用者行為異常檢測和分類架構

不幸的是,出于明顯的隐私原因和幾種不同的動機(即我們有具有不同角色的使用者,是以可以僅監視某些類型的使用者,某些使用者不希望授權披露某些資料)。

是以,對于不同的使用者,一些來源是缺失的,必須有效地面對這個問題以獲得準确的分類。

通常,所有這些資料都被稱為數字足迹,即使用者在連接配接到網絡、使用社交網絡或僅通過他們的 PC 時留下的痕迹。

基于內建的網絡安全使用者行為異常檢測和分類架構

更詳細地說,我們監控三個主要資料源:鍵盤、滑鼠和使用者花費大部分時間的主要應用程式/類别。

至于鍵盤和隐私方面的原因,如圖1a所示,我們隻記錄與使用者按下的鍵對應的鍵盤區域,包括字母數字字元和特殊符号。

基于內建的網絡安全使用者行為異常檢測和分類架構

至于滑鼠,我們存儲所有由滑鼠移動和點選産生的動作。更具體地說,這些資料指的是光标在螢幕上的位置。

不過,我們并沒有存儲确切的位置,而是将螢幕分成 16 個部分(使用 4 個水準和 4 個垂直條紋,距離相等)。

我們僅儲存一個數字,用于辨別使用者單擊或移動滑鼠的相應螢幕部分(見圖1b)。

基于內建的網絡安全使用者行為異常檢測和分類架構

應用程式的使用情況通過 CPU 使用情況、應用程式打開次數和記憶體使用情況進行監控。對于類别(應用程式所屬)也是如此。最後,所有這些統計資料都在 30 分鐘的時間視窗内進行了平均。

提出了一種基于彈性堆棧的高性能架構,用于處理和存儲監控公司使用者行為的大量快速資料流。

該架構可以有效地處理缺失和不平衡的資料源;此外,它還逐漸內建了來自多個資料源的數字足迹,可用于防止與人為因素相關的網絡安全問題的不同任務,例如使用者配置檔案和風險的分類以及誤用/濫用使用者行為的異常檢測。

基于內建的網絡安全使用者行為異常檢測和分類架構

實驗結果表明,該架構有效地處理了分類任務中的缺失資料。此外,與關于使用者行為的兩個真實資料集,現有最先進解決方案相比,該系統可以有效地檢測異常,用于僞裝檢測場景,特别是在 AUC-PR和F-措施。

在包含許多缺失元組的不平衡資料的情況下,我們的方法的出色性能也得到了證明。

未來的工作旨在通過使用 Apache Spark Streaming 的主要任務的支援和實施來擴充系統,并評估其在真實場景中的可擴充性。

基于內建的網絡安全使用者行為異常檢測和分類架構

此外,架構的評估可以擴充到來自社交、移動和物聯網環境的資料源的情況。

參考文獻:

1.CERT Australia (2012) 網絡犯罪和安全調查報告。技術報告

2.Subrahmanian VS、Ovelgonne M、Dumitras T、Prakash BA (2015) 全球網絡漏洞報告,第 1 版。斯普林格,紐約

3.van Zadelhoff M (2016) 最大的網絡安全威脅在您的公司内部。數字文章 - 哈佛商業評論

4.Folino G, Sabatino P (2016) 基于內建的協作和分布式入侵檢測系統:一項調查。J Netw Comput Appl 66(C):1–16

5.Folino G, Guarascio M, Papuzzo G (2019) 利用分形維數和分布式進化方法對具有概念漂移的資料流進行分類。應用軟計算 75:284–297

繼續閱讀