天天看點

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一3.3.3 資料間邏輯的排查

本節書摘來華章計算機《資料分析實戰:基于excel和spss系列工具的實踐》一書中的第3章 ,第3.3.3節,紀賀元 著 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

重複值、空行(列)、缺失值這些都是比較明顯的錯誤,而資料之間的邏輯關系則是比較隐蔽的問題。案例檔案3.9給出了對啤酒飲用習慣進行調查後所記錄的資料,先來看看年齡和學曆這兩組資料,單獨看這兩組資料并無可疑之處,但是考慮到邏輯關系就不盡然了。

從目前我國大學的情況看,一般大學生畢業在21~23歲,碩士生畢業在25~27歲,如果考慮學曆和年齡之間的邏輯關系,再對案例檔案3.9進行排查,看看情況如何。這裡使用條件格式進行排查,如圖3-25所示。

進行條件格式後的界面如圖3-26所示。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一3.3.3 資料間邏輯的排查
《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一3.3.3 資料間邏輯的排查

在圖3-26中,選擇自定義公式,在公示欄中輸入公式:=and(c2<=25, d2>=5),也就是當c2(年齡)小于等于25,并且學曆大于等于5(5是碩士,6是博士)的時候,将編号填充為紅色,結果如圖3-27所示。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一3.3.3 資料間邏輯的排查

從圖3-27可以看出,編号為11和18的,其學曆和年齡之間的邏輯關系不正常,需要重點關注和糾正。

根據業務關系來排查資料的例子還很多,這需要讀者結合自己的業務邏輯努力去排查判斷。

此外,資料合并也是資料準備的重要内容,這将在4.1節中詳細叙述,在此不再重複。

繼續閱讀