《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一3.3　耗時耗力的資料整理過程

2021-11-08 13:39:38

本節書摘來華章計算機《資料分析實戰:基于excel和spss系列工具的實踐》一書中的第3章，第3.3節，紀賀元　著更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

資料的整理往往是一個痛苦的耗時耗力的過程，有人曾經以做飯菜來打比方：做過飯菜的人都知道，下油鍋炒菜的時間其實并不長，幾分鐘就夠了，而做菜之前的買菜、泡菜（用水浸泡菜去除農藥）、洗菜、切菜、配菜等會消耗2～3小時。這和做資料分析很類似，做一個聚類分析，如果選擇的模型得當并且電腦運作很快的話，幾分鐘甚至幾秒鐘就做完了，但是要把聚類的資料全部收集完畢，很可能要花幾天甚至幾個月的時間。

資料分析之前的資料整理工作要做哪些事情呢？我們看看以下邏輯。

（1）盡可能保證資料是對的

在錯誤的資料上分析得出的結論往往是錯誤的，是以要盡量保證資料的準确性，重複資料以及空行、空列、異常值、不符合邏輯關系的資料都會造成資料品質的降低，要想辦法剔除這些資料。至少也要對這些資料有所警醒！

（2）盡可能保證資料能用得上

通常情況下，資料中都會有很多缺失值，面對這種情況，删除肯定是個簡單的處理方法，但問題是，這樣操作會丢失很多資料和資訊。我曾經對某個項目進行測算，如果用“簡單粗暴”的方法去删除包含缺失值的資料，那麼大概要損失70%左右的資料，這樣一來，根據30%左右的資料分析得出來的結論肯定是不準确的。

（3）要保證資料的格式能夠直接用于分析

資料有多種組織方式，統計和挖掘中的很多算法模型都需要針對固定格式來做，比如對應分析、關聯分析等，是以免不了要做格式轉換，有時，為了實作對大資料量的分析，還需要進行程式設計。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一3.3　耗時耗力的資料整理過程

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一3.3 耗時耗力的資料整理過程

繼續閱讀

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一3.3　耗時耗力的資料整理過程