天天看點

異常行為監控

業務背景

使用者系統中如果出現任何的異常資料,比如一個運維系統的CPU消耗突然增高,比如平台突然有大量不良資訊産生,比如有使用者大量薅羊毛,這些行為都是平台的異常名額。如果能通過機器學習的方式幫助使用者針對各種異常名額做預防和實時預警,将大大建設平台方的風險。

業務痛點

缺乏一種實時高效的方式監控平台名額,增強平台的智能化安全防衛能力。

解決方案

PAI平台提供了一套基于名額監控的分類算法,可以把異常名額監控抽象為一個二分類場景,并且把監控模型部署到線上系統實時調用,實作近線風控。

1.人力要求:需要懂機器學習經典算法特别是特征工程以及二分類算法的同學

2.開發周期:1-2天

3.資料要求:已經達标過的資料上千條,标記出哪些資料是異常資料,哪些是非異常資料

資料說明

文案例使用的資料是一份系統級别監控日志資料,一共22544條資料,其中異常資料9711條。

異常行為監控

資料說明:

參數名稱 參數描述
protocol_type 網絡連接配接協定,有tcp、icmp、udp等
service 服務協定,有http、finger、pop、private、smtp等
flage SF、RSTO、REJ
a2~a38 不同的一些系統名額
class 标簽字段,其中normal為正常樣本,anomaly為異常樣本

流程說明

進入PAI-Studio産品:

https://pai.data.aliyun.com/console

該方案資料和實驗環境已經内置于首頁模闆:

異常行為監控

打開實驗:

異常行為監控

1. 資料源

資料說明中提到的資料。

2. 特征工程

one-hot特征編碼元件可以自動将特征由字元型向數值型轉變,是機器學習領域最常見的資料編碼方式。

歸一化元件可以将所有資料的範圍都限定到0~1之間,去除量綱的影響。歸一化後資料如下圖:

異常行為監控

利用SQL元件把目标列是anomaly的标記為1,正常名額标記為0。

select (case class  when 'anomaly' then 1 else 0 end) as class from  ${t1};           

3. 模型訓練

根據正常和非正常樣本訓練監控模型是一個典型的二分類問題,使用機器學習領域中的邏輯回歸二分類算法就能達到比較好的效果。

異常行為監控

4. 模型評估

PAI平台提供二分類模型的評估元件,可以通過AUC、KS、F1Score等名額評估模型的好壞,本實驗的模型預測準确率超過了90%。

異常行為監控

總結

PAI平台提供了特征編碼、模型訓練、模型評估全方位的功能,隻要能把平台産生的異常行為的特征抽取出來并标記,就可以基于PAI快速建構異常名額監控模型。

繼續閱讀