本節書摘來自華章計算機《r語言資料分析與挖掘實戰》一書中的第3章,第3.4節,作者 張良均,雲偉标,王路,劉曉勇,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
本章從應用的角度出發,從資料品質分析和資料特征分析兩個方面對資料進行探索分析,最後介紹了r語言中常用的資料探索函數及用例。資料品質分析要求我們拿到資料後要先檢測是否存在缺失值和異常值;而資料特征分析要求我們在資料挖掘模組化前,通過頻率分布分析、對比分析、帕累托分析、周期性分析、相關性分析等方法,對所采集樣本資料的特征規律進行分析,以了解資料的規律和趨勢,為資料挖掘的後續環節提供支援。