第一章節是從一個餐廳的角度出發,引出來許許多多的相關概念。
第一個概念就是什麼是資料挖掘,這個簡單,望文生義就好了。它的名字本身就诠釋了它的内涵。
基本任務還是得記一下:
1分類與預測。(有點像量化,股票交易)
2聚類分析()
3關聯規則()
4時序模式()
5偏差檢測()
關于定義挖掘目标,就是什麼菜品推薦,門店開在哪,這些問題。可以不多說。
關于資料取樣,沒啥好說的。
然後重點在後面,
資料品質分析:有缺失值怎麼辦?(就是統計一下缺失率什麼的,然後删掉或者補值呗)
有異常值怎麼辦?(識别出來然後删掉呗。怎麼識别,用四分位圖,異常值小于下四分位-四分位距 或大于上四分位+四分位距)
資料沖突怎麼辦?(可能就是資料舊了呗,比如說換了手機号啥的。更新一下就好啦)
就是解決這三個問題。
資料特征分析:分布分析:直方圖,分布圖,雷達圖啥的。
對比分析:折線圖呗。還記得文明5裡文明得分折線圖麼?
統計量分析:計算均值,方差,标準差,找中值呗
周期性分析:列出時間表,看看有沒有周期性呗。
貢獻度分析(帕累托分析):做帕累托圖,直方圖+折線(各菜品量+貢獻線)
相關性分析:散點圖,回歸線性分析呗
資料預處理:
資料清洗(删除缺失值,或用拉格朗日,牛頓法補缺失值。删除或不處理異常值,分析異常值。)
資料內建(合并資料源,解決資料重複備援的工作)
資料變換(簡單函數變換比如取對數,規劃化按比例縮小到[0,1], 連續屬性離散化,新屬性構造,小波變換)
資料規約(屬性規約,就是删屬性呗,數值規約,就是減少資料量呗)
挖掘模組化與模型評價
挖掘模組化就是考慮是哪個問題:
1分類與預測。(有點像量化,股票交易)
2聚類分析()
3關聯規則()
4時序模式()
5偏差檢測()選取相應的模型。
當然還要用無關的測試集,測試一下來挑戰一下模型
