一、什麼是預處理、預分析?
高品質資料是資料分析的前提和分析結論可靠性的保障。盡管在擷取資料源時資料分析師格外謹慎,耗費大量的時間,但資料品質仍然需持續關注。不管是一手還是二手資料源,總是會存在一些品質問題。同時,為了滿足資料分析、挖掘的實際需要,對噪聲資料如何處理,是丢棄還是補充,或者重新計算新的資料變量,這些不是随意決定的,這就是資料預處理的一個過程,是在資料分析、挖掘開始前對資料源的稽核和判斷,是資料分析必不可少的一項。本文暫隻簡單讨論一下缺失值、異常值的處理。
二、如何發現資料品質問題,例如,如何發現缺失值?
1、spss是如何做到的?
(1)系統缺失值、空白值
每一個變量均有可能出現系統缺失或者空白,當資料量巨大時我們根本無法用眼睛看出是否有缺失,最明智的做法是把這項任務交給資料分析工具,比如excel,可通過資料有效性、篩選、查找、計數等功能去實作,如果是spss資料源,可以通過描述統計之“頻率”項來實作。
上圖,五個變量中,家庭個人所得有效樣本94,有6個無效樣本,在spss資料區域顯示為空白值。其他變量均沒有缺失,對于這6個缺失值是留是踢需要謹慎。
(2)變量取值分布
這一項不容忽視,一般由于輸入錯誤、資料本身或者其他原因造成。這裡分分類變量和數值變量進行檢查。
分類變量取值分布檢查:
描述統計之“頻率”項,可以對變量以及變量取值進行頻次統計彙總,是以,此處仍然采用“頻率”項。
上圖,我們已經确認是否捐血樣本全部有效,但是不代表這個變量沒有其他噪聲。通過此變量取值分布的考察,我們可以發現是否捐血有4個水準,分别為“0”“1”“no”“yes”,但實際上,該變量的取值至于兩個水準,“no”“yes”,其餘兩個取值是錯誤操作導緻的,這是系統缺失值,可以通過重新指派進行處理。
數值變量取值分布檢查:
數值變量取值分布不宜采用“頻次”的統計,一般可通過直方圖、含有正态檢驗的直方圖來實作。
上圖,數值變量的直方圖,可以清楚的看到其分布情況。可以初步判斷存在異常值。
(3)離群值、極值
在spss中可以通過“箱圖”直覺的看到異常值,探索分析項或者箱圖功能可實作。
上圖,為spss探索分析結果,還可以設定分組變量。可以直覺的發現,家庭個人所得存在極值,編号為66,可以快速查找定位。
2、clementine是怎麼做到的?
data audit,資料稽核節點示例:以下資料流看圖不解釋。
首先,建立以上資料流。最後一個為“資料稽核”節點,右鍵選擇并打開編輯:
上圖,為clementine變量診斷結果,非常直覺,圖文并茂,而且一張圖幾乎說明了資料源各種品質問題。是否無償捐血,取值水準有4個,家庭個人所得最大值有異常,且明确顯示有6個無效值。其他變量正常。
上圖,是clementine變量診斷結果中的另外一張圖表,我們可以發現家庭個人所得有一枚極值,六枚無效值。通過上述診斷,資料品質問題一目了然。
三、如何處理缺失值、離群值、極值?
1、spss實作方法
上圖,為spss變量轉換菜單下的重新編碼為相同變量頁籤。可以輕松實作變量重新指派。主要實作方法:重新編碼為相同/不同變量、計算變量、缺失值分析子產品,此處略,後續文章會涉及。
2、clementine實作方法
(1)是否無償捐血 重新分類
我們已經清楚的知道,是否無償捐血變量在取值分布上存在問題。在clementine,需要用reclassify節點進行重新分類,在變量診斷的第一種表格上選中是否無償捐血變量,點選左上角“生成”按鈕,生成一個reclassify節點。打開該節點,如上圖所示,即可完成重新分類。
(2)無效值、空白值的處理
家庭個人所得變量存在6個無效值,我們建議保留這6個樣本,希望通過決策樹算法進行針對性的預測,進而為這6個無效值進行指派。如上圖所示進行操作。然後,選中該變量,點選左上角“生成”按鈕,自動生成一個缺失值插補超級節點。
(3)離群值、極值的處理
家庭收入變量還存在一枚極值,對于該極值,我們采取剔除丢棄處理,在clementine變量診斷表格中,如上圖操作,點選生成按鈕,自動生成一個離群值和極值超級節點。
(4)以下為clementine的處理結果
我們将自動生成的兩個超級節點,連接配接在資料流末端,再次進行資料稽核,結果如上圖所示,此時,我們可以看到,上述幾個問題已經達到合理地解決。最終我們剔除了一個極值,對其他品質問題采取保守态度進行相應的處理。
上圖,為整個過程的資料流圖示。
四、總結
1、通過spss描述統計的相關過程,可以實作資料品質的探索分析并進行相應的預處理。 2、通過clementine的type節點、filler節點、reclassify節點、data audit等節點可以實作資料品質的探索,而且比spss更直覺,更快捷。 3、相比而言,clementine在資料分析預處理方面更加優秀,結果可視化程度較高,直覺易懂,而且處理流程簡短精悍,雖然通過spss或者excel也可以完成這些工作,但我想,如果能合理選擇有效駕馭,clementine是一個不錯的選擇,這不是炫耀或者奢侈,更效率更效果的工作才是最終目的。