天天看點

《Python資料分析與挖掘實戰》一3.4 小結

本節書摘來自華章出版社《python資料分析與挖掘實戰》一書中的第3章,第3.4節,作者 張良均 王路 譚立雲 蘇劍林,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

本章從應用的角度出發,從資料品質分析和資料特征分析兩個方面對資料進行探索分析,最後介紹了python常用的資料探索函數及用例。資料品質分析要求我們拿到資料後先檢測是否存在缺失值和異常值;資料特征分析要求我們在資料挖掘模組化前,通過頻率分布分析、對比分析、帕累托分析、周期性分析、相關性分析等方法,對采集的樣本資料的特征規律進行分析,以了解資料的規律和趨勢,為資料挖掘的後續環節提供支援。

要特别說明的是,在資料可視化中,由于主要使用pandas作為資料探索和分析的工具,是以我們介紹的作圖工具都是matplotlib和pandas結合使用。一方面,matplotlib是作圖工具的基礎,pandas作圖依賴于它;另一方面,pandas作圖有着簡單直接的優勢,是以,兩者互相結合,往往能夠以最高的效率作出符合我們需要的圖。