1.2、資料品質分析
(1.資料品質分析的目的:
保證資料的正确性、保證資料的有效性
例如:國際漫遊通話客戶隻有0.01%,是以對國際漫遊通話時長該變量統計正确性毫無問題,也認為該變量缺少有效的資訊而有資料品質問題,因為該變量提供好的資訊隻能對最多0.01%的客戶産生影響,對未來預測模型的貢獻實在是微乎其微。
(2.資料品質分析的内容:
在資料的正确性分析方面:
1、缺失值:缺失資料包括空值或編碼為無意義的指(null)2、資料錯誤:通常是在輸入資料時,造成的排字錯誤3、度量标準錯誤:正确輸入但因為不正确的度量标準而導緻的錯誤資料4、編碼不一緻:通常包括非标準度量機關或不一緻的值。例如,同時使用M和male表示性别;
在資料的有效性方面:
關注資料統計方面的資訊;例如:占比、方差、均值、分位數等,以此來了解這些資料包含的資訊度程度。
(3.資料品質分析的方法:
1、值分析
![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 例如:![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 通過本圖,X37 和 X38 的非零百分比超過80%,其他變量多數為0,這些為0的變量包含的資訊少,以此他們對資料進行挖掘意義不大。如果為了保證資料的有效性,取閥值為80%,則這15個變量,又有X37 和 X38 會納入下一輪資料樣本的變量體系中。1).唯一值分析:
它的最簡單情況:是變量隻有一個取值,這樣的變量對于資料挖掘模組化無法提供任何有效的資訊。例如,對于一定系統的變量:國籍———中國另一種情況:對于變量業務含義有一定的了解,還能分析變量唯一值數比預期是多還是少。例如:性别:男、女、不确定;如果出現4,5中取值就要檢視是否存在資料的品質問題2).無效值分析:
空值,空字元串,null,0(無意義)都是無效值,對于無效值較多的變量(例如:該變量無效值比例超過90%等),首先懷疑資料處理過程是否存在錯誤;如無錯誤,對于極差或無效的變量,在模組化時将慎用甚至棄用。3).異常值分析:
在多數情況下,變量不允許出現負值、空值。異常值分析主要是分析變量是否存在異常值得情況,再結合一定的業務背景知識,确認是否存在錯誤的資料。
2、統計分析
統計的基本統計概念:總體和樣本。從總體中随機産生若幹個個體的集合成為樣本。
從統計學的角度,統計的任務是由樣本推斷總體。
從資料探索角度,關注的通常由樣本推斷總體的資料特征。
1).基本統計量
(1)、表示位置的統計量:
1 衆數:變量中發生頻率最大的值。例如:使用者狀态(正常,欠費停機,申請停機,拆機、消号),該變量的衆數是 “正常” 則是正常的。2 中位數:中位數可避免極端資料,代表這資料總體的中等情況。例如:從小到大排序,總數是奇數,取中間的數,總數是偶數,取中間兩個數的平均數。3 算數平均數:又稱均值,描述資料去指導額平均位置,數學表達式:~x (均值)= ∑x / n;
(2)、表示資料散度的統計量:
1 标準差:它是各個資料與均值偏離程度的度量,這種偏離也成異變。數學表達式:S = ([ ∑(x - ~x)² ] / n)½ ;這裡可将n改為n-1,是無偏估計。2 方差:标準差的平方。3 極差:最大值和最小值之差。
(3)、表示分布形狀的統計量:
1 偏度:正态分布的偏度為0,偏度<0稱分布具有負偏離(左偏态),此時資料位于均值左邊的位于右邊的多,有個尾巴拖到左邊,說明左邊有極端值,偏度>0稱分布具有正偏離(右偏态)。偏度接近如于0 ,可認為分布對稱。例如:知道分布有可能在偏度上偏離正态分布,則可用偏度來檢驗分布的正态性。偏度的絕對值數值越大表示其分布形态的偏斜程度越大。偏度計算公式:(n:總數; ~x:均值; SD:标準差)![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 2 峰度:描述總體中所有取值分布形态陡緩程度的統計量(與正态分布比較,,就是正态分布的峰頂)。例如:正态分布為3,若峰度 > 3 ,這表示分布有沉重的尾巴,說明樣本中含有較多遠離均值的資料。峰度的絕對值數值越大表示其分布形态的陡緩程度與正态分布的差異程度越大。
峰度計算公式:(n:總數; ~x:均值; SD:标準差)
![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析
統計量中最重要的是均值和标準差。樣本是随機變量,是以用他們去推斷總體時,可靠性和統計量的機率分布更準确。不過在資料挖掘的不同階段,要用不同的統計量去認識和評估資料。
(4)、表示分布描述性統計量
1 分位數:将資料從小到大排序,小于某個值得資料占總數的百分比。例如:通常所說的中位數就是50%分位數,即小于中位數所占總數的50%。
随機變量的特征完全由它的機率分布函數或機率密度函數來描述。
設有随機變量 X ,其分布函數定義為 X <= x 的機率,即 F(x) = P { X <= x }是連續型随機變量。
則 其密度函數 P(x) 與 F(x)的關系為:
![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 分位數,就可以用上面這樣定義:對于 0 < α < 1 ,使某分布函數 F(x) = α 的 x ,為這個分布的 α 分位數,記作 Xα 。
對于下面要講的直方圖頻數分布圖,當 n 充分大時,頻率就是頻數的近似,是以直方圖可以看作密度函數圖形的(離散化)近似。
2).統計資訊方法分析
![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 如圖所示:均值,最大值,最小值,中位數描述的是資料的基本特征,從資料的品質分析的角度來講,極差、方差、标準差更有用,因為這幾個統計量更關注這個變量所有資料的特征。
例1:如果發現某些資料的極差變化很大,則說明這些資料的資料量級差别很大,很可能需要對資料進行歸一化處理。
例2:如果發現一些變量的标準差很小,則說明資料的變化很大,有可能說明這個變量所包含的資訊比較少,在資料挖掘中就可以考慮是否需要删除這些變量。
認識統計變量的本身不同的特征,需要注意一下幾點:
(1,)、檢視資料與正态分布的接近程度(即分析資料的的分布情況,這是核心),可以選取有代表性的統計量表示整體情況。例如:在資料分布為正态時,可以用均值來代替資料的整體情況,在資料分布較為偏斜時,衆數與中數就能代替資料的整體情況。
(2)、用均值和極值評判時,要有一定的業務常識,或與曆史進行對比。例如:檢視最小值是否符合業務邏輯,最高值是否準确,真實。均值是否合理。單純均值和極值評判時需要借助一定的業務經驗。具有局限性。
(3)、标準差反映資料的分散程度。![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 如圖:深灰,淺灰,淡灰區域分别對應1,2,3倍标準差,對應的機率為68.3%,95.5%,99.7%。例如:變量是以正态分布的,則當最大值(或最小值)與均值的差超過3倍标準差時,很可能這些極值存在問題。現實中,一方面資料量巨大,是以,極值超過3倍标準差也是正常的,另一方面,許多變量分布并不滿足正态分布,使用時要注意。
3、頻次圖與直方圖分析
通過頻次圖與直方圖分析能對資料進行更深入、更直覺的分析。同時,可以有效地觀測出資料分布的兩個重要特征:集中趨勢和離散趨勢。
1).直方圖分析
直方圖适用于對大量連續性資料進行整理加工,找出其統計規律,以便對其總體分布特征進行推斷。直方圖(數值等寬)分析步驟如下:
(1)、找出最大,小值(2)、先排序,然後分組(6~20組為宜)(3)、組數/(最大值-最小值),求出組距寬度(4)、計算各組 界限位(上、下界限位)。(5)、統計各組資料出現的頻數,作頻數分布表(6)、以組距為底長,以頻數為高,作各組的矩形圖。
其中各組的界限位可以從第一組一次計算,第一組的 下界=最小值-(組距/2),上界=下界值+組距; 第二組的下界=第一組的上界 ,上界=第二組下界+組距
例子1:![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 這是一個比較正常的直方圖
例子2:
![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 該圖變量的資料過于集中,這對資料挖掘來說意義不大,是以就可以删除該變量。2).頻次圖分析
頻次圖是為了計算離散型資料各值分布情況的統計方法,它有助于了解某些特殊數值的意義,同時它也可以支援多個次元組合分布情況。對分類變量進行頻次圖分析步驟:
(1)、集中和記錄資料,計算總的分類數N(2)、将資料按序排列,分為N組(3)、統計各組資料出現的頻數,作頻數分布表(4)、作頻次圖
例子:![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 這是2000-2014年的全球7級以上的地震頻次圖,分類是按年份。4、衍生變量
它是由其他既有變量通過不同形式的組合而衍生的變量,衍生變量與原始變量有一定的相關性,但是不是所有的衍生變量都有意義,要适度,看情況。
例子:密度 = 品質 / 體積 ; 線密度 = 品質 /長度 ;要研究那個物體可以漂浮在水面上,隻要根據密度這一衍生變量就可以判斷出。
衍生變量是資料挖掘探索最重要的環,但是對于一個項目來說,有無數個衍生變量。
幾個基本的衍生變量的方法:
(1)、對多個列變量進行組合例如:身高的平方 / 體重 (肥胖指數) ; 負債 / 收益 ; 總通話時間 / 總呼叫次數 ; 網頁通路量 / 購買總量 等;(2)、按照次元(也叫變量)分類例如:在分析無線通信酷虎六十現象時發現,按照手機型号分類彙總的流失率比單純用手機型号分類的資料更有用。(3)、對某個變量進一步分解例如:對于日期變量,可進一步分解為季度、節假日、工作日、周末 等變量。(4)、對具有時間序列特征的變量可以進一步提取時序特征。例如:一段時間的總開銷量、平均增長率、初始值與終值的比率、兩個相鄰值之間的比率、顧客在暑假購物占年度比重、周末電話平均長度與每周電話平均長度。
例子:證劵市場上的各種技術名額基本都是衍生變量。
(1)、環境準備與讀取原始資料(2)、計算衍生變量(3)、收集并保持資料(4)、資料可視化
比如:![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 ![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 (5)、評價型衍生變量
在衍生變量中有一類重要的衍生變量,這類變量作用是用于評價被挖掘事物和好壞,就是評價型衍生變量(目标,比如:好壞等),而其他的叫名額型衍生變量。
因為資料挖掘中很多算法是機器學習算法,這類算法的典型特點是需要有輸入和輸出的樣本訓練機器。
比如:評價股票的好壞,針對上面的可視化結果,在根據一定規則進行衍生得到它的好壞。
重複一到四步,生成可視化圖:
![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 (6)、衍生變量的收集與內建
當産生衍生變量後,為了便于後學的資料處理,通常需要将資料收集在一起,如果在不同的檔案或表中,也常常合并在一種表中。
5、資料可視化
對資料可視化,經過分析,篩選出我們需要的好資料。
1)、資料分布形狀可視化
例如:柱狀分布圖![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 通過圖可以看到dv3過于集中,相當于固定值,這種最好删除。可見對資料進行可視化分析意義很大。2)、資料關聯情況可視化
在進行變量篩選前,可先利用關聯可視化了解各變量的關聯關系。例如:![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 ![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 通過該圖可以看出任意兩個變量的關聯趨向。![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 ![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 通過該圖,從宏觀上表現出變量間的關聯強度,實踐中往往用于篩選變量。3)、資料分組可視化
它是按照不同的分位數将資料進行分組,典型的圖形就是箱體圖。根據香體乳可以看出資料的分布特征和異常值的數量,這對于确定是否需要進行異常值處理很有利。
例如:
![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 ![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 ![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 ![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 ![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析 ![]()
資料挖掘學習------------------1-資料準備-2-資料品質分析1.2、資料品質分析