天天看點

《Excel資料可視化:一樣的資料不一樣的圖表》——1.2 資料的清洗

本節書摘來自華章計算機《excel資料可視化:一樣的資料不一樣的圖表》一書中的第1章,第1.2節,作者 恒盛傑資訊,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

《Excel資料可視化:一樣的資料不一樣的圖表》——1.2 資料的清洗

對于一份龐大的資料來說,無論是手動錄制還是從外部擷取,難免會出現無效值、重複值、缺失值等情況。在excel 2007以前的版本中,想要删除或更正這些不符合要求的資料,需要先将其篩選出來,之後再批量删除或修改,是一項很繁重的工程。随着microsoft excel元件的不斷更新,功能的适應性也越來越高,對于這種常見的問題也有了新的處理方法,如批量删除重複值。

不符合要求的資料主要有缺失的資料、錯誤的資料、重複的資料三大類。面對這樣的資料,就需要進行清洗,還包括資料一緻性的檢查,将其更正為有實際意義的資料。

《Excel資料可視化:一樣的資料不一樣的圖表》——1.2 資料的清洗

想要清除這些有缺陷的資料,就需要根據它們的類型從不同角度進行操作,如填補遺漏的資料、消除異常值、糾正不一緻的資料等。

在實際的資料收集中,資料項的缺失是很常見的。比如從業人員因為疏忽在統計資料時漏寫了某個時期内的資料,或者是人為原因導緻在某些時間段内傳感器無法正常工作等,這些都會造成資料項的缺失。

有一張員工表,第一列為員工編号,後面為員工資訊。員工離職後就直接删除了該員工資訊所在行,結果現在的員工編号不完整。比如被删除的 ae104、ae109、ae112,怎樣添加這些缺失的員工編号呢?

《Excel資料可視化:一樣的資料不一樣的圖表》——1.2 資料的清洗
《Excel資料可視化:一樣的資料不一樣的圖表》——1.2 資料的清洗

在輸入公式的時候經常會出現一些錯誤的資訊,這些錯誤值通常是因為公式不能正确地計算結果或公式引用的單元格有錯誤造成的。下面列出excel中錯誤值的類型、産生的原因及解決方法。

《Excel資料可視化:一樣的資料不一樣的圖表》——1.2 資料的清洗
《Excel資料可視化:一樣的資料不一樣的圖表》——1.2 資料的清洗

在實際工作中,由于對公式的不熟悉、單元格引用不當、資料本身不滿足公式參數的要求等原因,難免會出現上述錯誤。但是有些情況出現的錯誤類型并不影響計算結果,即允許出現那樣的錯誤形式。此時,就需要将錯誤值進行深度處理,可顯示為空白或用0代替,以友善上司查閱。

《Excel資料可視化:一樣的資料不一樣的圖表》——1.2 資料的清洗
《Excel資料可視化:一樣的資料不一樣的圖表》——1.2 資料的清洗

重複值一般都是多餘的資料,在資料統計過程中,要確定資料的唯一性,隻有這樣才能確定統計結果的正确性和可靠性。如果忽視了這一要點,所做的任何結果都将無濟于事。

現有一張客戶考核統計表,因不同員工對相同客戶進行了考核,導緻出現了一樣的客戶編碼,如果要統計月底對客戶的考核覆寫率,統計有重複值的記錄就是不正确的,需要将其删除。

《Excel資料可視化:一樣的資料不一樣的圖表》——1.2 資料的清洗
《Excel資料可視化:一樣的資料不一樣的圖表》——1.2 資料的清洗
《Excel資料可視化:一樣的資料不一樣的圖表》——1.2 資料的清洗

繼續閱讀