天天看點

異常值

異常值檢測

應用高斯分布檢測異常資料

高斯分布

x服從均值為,方差為的高斯分布,其機率密度分布圖如下:

異常值

其中,

算法流程

  • 選出哪些你認為可能是異常的特征或者是樣本
  • 計算出你選擇的資料的每個特征的均值和标準差
  • 給定一個新的資料,計算:

如果則為異常

如何開發和評價一個異常檢測系統

異常檢測算法是一個非監督學習算法,意味着我們無法根據結果變量

例如:我們有10000台正常引擎的資料,有20台異常引擎的資料。 我們這樣配置設定資料:

6000台正常引擎的資料作為訓練集

2000台正常引擎和10台異常引擎的資料作為交叉檢驗集

2000台正常引擎和10台異常引擎的資料作為測試集

具體的評價方法如下:

根據測試集資料,我們估計特征的平均值和方差并建構p(x)函數

對交叉檢驗集,我們嘗試使用不同的值作為閥值,并預測資料是否異常,根據值或者查準率與查全率的比例來選擇

選出 後,針對測試集進行預測,計算異常檢驗系統的值,或者查準率與查全率之比

異常檢測與監督學習的對比

異常檢測 監督學習
非常少量的正向類(異常資料 y=1), 大量的負向類(y=0) 同時有大量的正向類和負向類
許多不同種類的異常,非常難。根據非常 少量的正向類資料來訓練算法。 有足夠多的正向類執行個體,足夠用于訓練 算法,未來遇到的正向類執行個體可能與訓練集中的非常近似。
未來遇到的異常可能與已掌握的異常、非常的不同。

異常值處理

繼續閱讀