天天看點

《Python資料分析與挖掘實戰》一第3章 數 據 探 索

本節書摘來自華章出版社《python資料分析與挖掘實戰》一書中的第3章,作者 張良均 王路 譚立雲 蘇劍林,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

數 據 探 索

根據觀測、調查收集到初步的樣本資料集後,接下來要考慮的問題是:樣本資料集的數量和品質是否滿足模型建構的要求?是否出現從未設想過的資料狀态?其中有沒有什麼明顯的規律和趨勢?各因素之間有什麼樣的關聯性?

通過檢驗資料集的資料品質、繪制圖表、計算某些特征量等手段,對樣本資料集的結構和規律進行分析的過程就是資料探索。資料探索有助于選擇合适的資料預處理和模組化方法,甚至可以完成一些通常由資料挖掘解決的問題。

本章從資料品質分析和資料特征分析兩個角度對資料進行探索。