天天看點

hadoop大資料分析與挖掘實戰(讀書筆記1)

第一章節是從一個餐廳的角度出發,引出來許許多多的相關概念。

第一個概念就是什麼是資料挖掘,這個簡單,望文生義就好了。它的名字本身就诠釋了它的内涵。

基本任務還是得記一下:

1分類與預測。(有點像量化,股票交易)

2聚類分析()

3關聯規則()

4時序模式()

5偏差檢測()

關于定義挖掘目标,就是什麼菜品推薦,門店開在哪,這些問題。可以不多說。

關于資料取樣,沒啥好說的。

然後重點在後面,

資料品質分析:有缺失值怎麼辦?(就是統計一下缺失率什麼的,然後删掉或者補值呗)

有異常值怎麼辦?(識别出來然後删掉呗。怎麼識别,用四分位圖,異常值小于下四分位-四分位距 或大于上四分位+四分位距)  

資料沖突怎麼辦?(可能就是資料舊了呗,比如說換了手機号啥的。更新一下就好啦)

就是解決這三個問題。

資料特征分析:分布分析:直方圖,分布圖,雷達圖啥的。

對比分析:折線圖呗。還記得文明5裡文明得分折線圖麼?

統計量分析:計算均值,方差,标準差,找中值呗

周期性分析:列出時間表,看看有沒有周期性呗。

貢獻度分析(帕累托分析):做帕累托圖,直方圖+折線(各菜品量+貢獻線)

相關性分析:散點圖,回歸線性分析呗

資料預處理:

資料清洗(删除缺失值,或用拉格朗日,牛頓法補缺失值。删除或不處理異常值,分析異常值。)

資料內建(合并資料源,解決資料重複備援的工作)

資料變換(簡單函數變換比如取對數,規劃化按比例縮小到[0,1], 連續屬性離散化,新屬性構造,小波變換)

資料規約(屬性規約,就是删屬性呗,數值規約,就是減少資料量呗)

挖掘模組化與模型評價

挖掘模組化就是考慮是哪個問題:

1分類與預測。(有點像量化,股票交易)

2聚類分析()

3關聯規則()

4時序模式()

5偏差檢測()選取相應的模型。

當然還要用無關的測試集,測試一下來挑戰一下模型

hadoop大資料分析與挖掘實戰(讀書筆記1)