天天看點

資料科學異常值檢測原理—經驗法則

前提:

資料樣本符合标準正态分布,正态分布的核心是中心極限定理即:如果一個事物受到多種因素的影響,不管每個因素本身是什麼分布,它們加總後,結果的平均值就是正态分布。如果要符合正态分布則這些因素必須彼此獨立,彼此不獨立的各項因素會互相加強影響,那麼就構不成正态分布。(還有對數正态分布是指各種因素對結果的影響不是相加,而是相乘)

經驗法則原理:

資料科學異常值檢測原理—經驗法則

标準正态分布下的曲線為鐘型曲線,期望值μ決定了其位置,其标準差σ決定了分布的幅度。當μ = 0,σ = 1時的正态分布是标準正态分布。是以對于一組資料,如果符合正态分布,則可以通過經驗法則來檢測異常值,同圖中可以發現,68.2%的測量值落在μ值處正負一個标準差σ的區間内,95.4%的測量值将落在μ值處正負兩個标準差σ的區間内,99.7%的值落在μ值處正負三個标準差σ的區間内。是以,對于一組符合正态分布的資料,如果某個值距離μ值超過三個标準差σ則可以判斷這個值屬于異常資料。

資料科學異常值檢測原理—經驗法則

計算步驟:

μ值:μ是遵從正态分布的随機變量的均值,由于前提是各種因素對結果的影響為相加,是以μ值的計算可以為樣本資料的算術平均值。

标準差σ:所有資料減去其平均值的平方和,所得結果除以該組數之個數N(資料集為總體資料情況,一般用于大資料算法)或者個數N減1(資料集為樣本資料情況,認為資料集不是總體資料而是總體資料的一部分,一般用于統計學),再把所得值開根号,所得之數就是這組資料的标準差。

資料科學異常值檢測原理—經驗法則

判斷邏輯:計算μ+3σ,μ-3σ,當單個資料大于μ+3σ或者小于μ-3σ時,認為此資料為異常值,因為按照經驗法則,此資料在資料集的99.7%範圍外。

繼續閱讀