異常值檢測
應用高斯分布檢測異常資料
高斯分布
x服從均值為,方差為的高斯分布,其機率密度分布圖如下:
其中,
算法流程
- 選出哪些你認為可能是異常的特征或者是樣本
- 計算出你選擇的資料的每個特征的均值和标準差
- 給定一個新的資料,計算:
如果則為異常
如何開發和評價一個異常檢測系統
異常檢測算法是一個非監督學習算法,意味着我們無法根據結果變量
例如:我們有10000台正常引擎的資料,有20台異常引擎的資料。 我們這樣配置設定資料:
6000台正常引擎的資料作為訓練集
2000台正常引擎和10台異常引擎的資料作為交叉檢驗集
2000台正常引擎和10台異常引擎的資料作為測試集
具體的評價方法如下:
根據測試集資料,我們估計特征的平均值和方差并建構p(x)函數
對交叉檢驗集,我們嘗試使用不同的值作為閥值,并預測資料是否異常,根據值或者查準率與查全率的比例來選擇
選出 後,針對測試集進行預測,計算異常檢驗系統的值,或者查準率與查全率之比
異常檢測與監督學習的對比
異常檢測 | 監督學習 |
非常少量的正向類(異常資料 y=1), 大量的負向類(y=0) | 同時有大量的正向類和負向類 |
許多不同種類的異常,非常難。根據非常 少量的正向類資料來訓練算法。 | 有足夠多的正向類執行個體,足夠用于訓練 算法,未來遇到的正向類執行個體可能與訓練集中的非常近似。 |
未來遇到的異常可能與已掌握的異常、非常的不同。 | |