本節書摘來華章計算機《資料分析實戰:基于excel和spss系列工具的實踐》一書中的第3章 ,第3.3節,紀賀元 著 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
資料的整理往往是一個痛苦的耗時耗力的過程,有人曾經以做飯菜來打比方:做過飯菜的人都知道,下油鍋炒菜的時間其實并不長,幾分鐘就夠了,而做菜之前的買菜、泡菜(用水浸泡菜去除農藥)、洗菜、切菜、配菜等會消耗2~3小時。這和做資料分析很類似,做一個聚類分析,如果選擇的模型得當并且電腦運作很快的話,幾分鐘甚至幾秒鐘就做完了,但是要把聚類的資料全部收集完畢,很可能要花幾天甚至幾個月的時間。
資料分析之前的資料整理工作要做哪些事情呢?我們看看以下邏輯。
(1)盡可能保證資料是對的
在錯誤的資料上分析得出的結論往往是錯誤的,是以要盡量保證資料的準确性,重複資料以及空行、空列、異常值、不符合邏輯關系的資料都會造成資料品質的降低,要想辦法剔除這些資料。至少也要對這些資料有所警醒!
(2)盡可能保證資料能用得上
通常情況下,資料中都會有很多缺失值,面對這種情況,删除肯定是個簡單的處理方法,但問題是,這樣操作會丢失很多資料和資訊。我曾經對某個項目進行測算,如果用“簡單粗暴”的方法去删除包含缺失值的資料,那麼大概要損失70%左右的資料,這樣一來,根據30%左右的資料分析得出來的結論肯定是不準确的。
(3)要保證資料的格式能夠直接用于分析
資料有多種組織方式,統計和挖掘中的很多算法模型都需要針對固定格式來做,比如對應分析、關聯分析等,是以免不了要做格式轉換,有時,為了實作對大資料量的分析,還需要進行程式設計。