天天看點

了解什麼是資料清理以及如何進行資料清理

作者:CPDA資料君
了解什麼是資料清理以及如何進行資料清理
了解什麼是資料清理以及如何進行資料清理

如今,是資料讓世界運轉。是以,為了做出明智的商業決策并提高你的底線,你需要一個可靠的資料政策、有效的分析工具和可靠的資料。

這裡的重點是“可靠”這個詞。不可靠的資料會浪費你的時間和金錢。問題是,如何加強資料的準确性?

CPDA資料分析師告訴您:答案在于實作正确的資料清理過程和工具。

清理資料并不是最吸引人的過程;這可能是乏味和耗時的。然而,正确的選擇會讓你在以後的工作中避免更大的麻煩。

以下是我們将在這篇文章中介紹的内容:

1. 什麼是資料清洗?

2. 6資料清理步驟

3. 外賣

我們走吧。

什麼是資料清洗?

資料清理或資料清理是删除或糾正資料集中不準确資訊的操作。這可能意味着資料丢失、拼寫錯誤和重複等問題。如果在這一步之前沒有得到适當的處理,資料集中這樣的壞資訊可能會導緻分析問題。

這可能意味着您必須重新進行分析,這是一個耗時且成本高昂的過程。你可能會錯過一些有用的見解,而這些見解可以讓你改善客戶體驗。更糟糕的是,你可能會根據錯誤的資訊做出重要的決定,這可能會給你的業務帶來負面的結果。

是以,資料清洗是資料預處理的重要組成部分。

有許多不同的技術可以使資料變得幹淨。你采用哪些方法取決于你的資料以及你希望從中得到什麼。還有一些資料清理工具可以幫助您完成這個過程。

資料清洗vs資料争吵

需要注意的是,資料清理和資料争論是資料預處理階段的獨立元素,不應混淆。

資料清理的重點是修複資料集中的不準确性。另一方面,資料争論涉及将資料格式轉換為機器學習模型可以接受和處理的格式。

按照下面我們将介紹的步驟清理資料之後,才可以開始資料争辯。

資料清理的重要性

随着世界上的資料(及其影響)以指數級增長,壞資料的成本也在增長。IBM在2016年的一項研究估計,不良資料每年給美國企業造成3.1萬億美元的損失。這對經濟和個體企業來說是一個巨大的壓力。

準确的,相關的客戶或業務資料,提供洞察,讓你做出正确的營銷決策,最終帶來更多的業務。處理糟糕的資料會降低你的銷售額,降低你的利潤。

如果你想使用機器學習工具進行資料挖掘或分析資料,資料清理就顯得尤為重要。你可以擁有世界上最好的機器學習算法,但如果你把髒資料放進去,你的結果就會反映出來。

“垃圾輸入,垃圾輸出”的概念在這裡很适用。

了解什麼是資料清理以及如何進行資料清理
了解什麼是資料清理以及如何進行資料清理

從哪裡開始資料清理

下一個合乎邏輯的問題是如何清理資料?但是,在讨論資料清理之前,值得注意的是可靠的标準化和資料輸入指南和實踐的重要作用。

有了這些實踐,您就可以從一開始就防止大量的壞資料被建立。所需的資料清理量将顯著減少,并且能夠節省資金。

下面是一個很好的可視化,讓你了解你正在尋找的儲蓄類型。如您所見,如果在源代碼中放入幹淨的資料,成本會低得多。如果您沒有做到這一點,資料清理仍然可以防止處理髒資料可能導緻的更大損失。

了解什麼是資料清理以及如何進行資料清理

你還應該有計劃地進行資料收集。這意味着要設定明确的目标,包括想要收集什麼樣的資料、為什麼要收集以及希望從後續分析中獲得什麼。

您可能能夠限制您收集的壞資料的數量,這取決于它來自哪裡。然而,一些髒資料将不可避免地漏網。要清理它,您需要以下步驟。

6資料清理步驟

1. 删除無關資料

2. 解析任何重複項

3. 糾正結構錯誤

4. 處理缺失的字段

5. 專注于任何資料異常值

6. 驗證資料

1. 删除無關資料

在做任何事情之前,您需要確定您所包含的資料确實需要在那裡。例如,如果您正在收集年齡在18-35歲之間的女性的資料,則沒有理由在您的資料集中出現60歲的男性。

删除這些不相關的字段将減少資料中的許多幹擾和噪音。這将使分析階段更有效,讓你更快地切入洞察。

2. 解決任何重複項

資料中的重複可能是合并來自不同來源的資訊的結果,也可能是手動輸入錯誤的結果。

資料中的重複資訊可能會給您帶來誤導性的見解。它還可能導緻糟糕的客戶體驗。例如,如果你列出了客戶的電子郵件兩次,你就有可能向他們發送重複的通信,這可能會激怒他們。

出于這些原因,仔細搜尋資料以删除任何重複條目是至關重要的。

3.糾正結構錯誤

資料中的結構性錯誤包括打字錯誤、不正确的大寫以及任何可能混淆機器學習模型的拼寫問題或格式(例如拼寫出日期而不是使用數字)。

根據我們之前的重複郵件的例子,如果你在客戶的電子郵件中有拼寫錯誤,你就有可能根本不聯系他們,錯過一次銷售。

您還需要标準化格式,例如日期和時間格式或度量機關。這樣就可以正确地對它們進行分組,并更快地進行分析。

如果你不解決這些問題,你可能無法接觸到你的客戶。你也可以建立新的、不必要的類别,這會削弱你為獲得洞察力所做的任何努力,并混淆你的機器學習模型。

4. 處理缺失字段

當表單填寫不正确時,經常會出現缺失字段的情況。如果保持原樣,您可能會從資料中得到扭曲的結果,并錯過有價值的資訊。

當涉及到缺失字段時,您可以執行以下兩種操作之一。如果該字段對您的分析很重要,您應該嘗試輸入缺失的資料。如果您不知道缺失的資料是什麼,或者您無法找到它,您應該用零或單詞缺失來填充該字段。

您的第二個選擇是删除具有此缺失值的觀測值。隻有當這部分資料對您的分析不重要時,才适合這樣做。

5. 鎖定資料異常值

離群值是指與其他大多數資料有很大差異的少數資料點。

離群值并不是不正确的,但由于它們距離其他資料點很遠,如果你考慮它們,它們可能會給出不準确的資料表示。

這方面的一個例子是,如果你取第一次買房者的平均年齡。包括那些80歲才買第一套房子的人,會不切實際地影響你的均值。

為了決定是否保留或删除異常值,您需要評估每個單獨的案例,看看它是否會增加或減少您的分析。

6. 驗證你的資料

要結束清理過程,需要驗證資料。這包括對資料進行全面的審視,并仔細檢查是否一切都是應該的。

在整個過程中你應該問的一些問題應該包括你是否有足夠的資料來處理,它是否已經準備好通過機器學習模型,以及它是否足夠幹淨以滿足你的需求。

這隻是清理資料的6個步驟。您可以在這裡找到更多資料清理技術,以獲得更深入的方法。

繼續閱讀