hadoop大資料分析與挖掘實戰（讀書筆記1）

2021-09-16 23:50:00

第一章節是從一個餐廳的角度出發，引出來許許多多的相關概念。

第一個概念就是什麼是資料挖掘，這個簡單，望文生義就好了。它的名字本身就诠釋了它的内涵。

基本任務還是得記一下：

1分類與預測。（有點像量化，股票交易）

2聚類分析（）

3關聯規則（）

4時序模式（）

5偏差檢測（）

關于定義挖掘目标，就是什麼菜品推薦，門店開在哪，這些問題。可以不多說。

關于資料取樣，沒啥好說的。

然後重點在後面，

資料品質分析：有缺失值怎麼辦？（就是統計一下缺失率什麼的，然後删掉或者補值呗）

有異常值怎麼辦？（識别出來然後删掉呗。怎麼識别，用四分位圖，異常值小于下四分位-四分位距或大于上四分位+四分位距）

資料沖突怎麼辦？（可能就是資料舊了呗，比如說換了手機号啥的。更新一下就好啦）

就是解決這三個問題。

資料特征分析：分布分析：直方圖，分布圖，雷達圖啥的。

對比分析：折線圖呗。還記得文明5裡文明得分折線圖麼？

統計量分析：計算均值，方差，标準差，找中值呗

周期性分析：列出時間表，看看有沒有周期性呗。

貢獻度分析（帕累托分析）：做帕累托圖，直方圖+折線（各菜品量+貢獻線）

相關性分析：散點圖，回歸線性分析呗

資料預處理：

資料清洗（删除缺失值，或用拉格朗日，牛頓法補缺失值。删除或不處理異常值，分析異常值。）

資料內建（合并資料源，解決資料重複備援的工作）

資料變換（簡單函數變換比如取對數，規劃化按比例縮小到[0,1], 連續屬性離散化，新屬性構造，小波變換）

資料規約（屬性規約，就是删屬性呗，數值規約，就是減少資料量呗）

挖掘模組化與模型評價

挖掘模組化就是考慮是哪個問題：

1分類與預測。（有點像量化，股票交易）

2聚類分析（）

3關聯規則（）

4時序模式（）

5偏差檢測（）選取相應的模型。

當然還要用無關的測試集，測試一下來挑戰一下模型

hadoop大資料分析與挖掘實戰（讀書筆記1）

上一篇: 記錄-《Python資料分析與挖掘實戰》 - 農夫三拳有點疼

下一篇: 移動端頁面總結