文章目錄

第一章資料挖掘與大資料簡介
第二章認識資料與資料預處理
- 2.1 認識資料
- - 2.1.1 屬性類型
  - 2.1.2 資料集類型
  - 2.1.3 資料的統計描述
  - 2.1.4 資料的相似性度量
- 2.2 資料預處理
- - 2.2.1 缺失值處理
  - 2.2.2 特征篩選
  - 2.2.3 歸一化
第三章關聯規則挖掘
- 3.1 幾個重要概念
- 3.2 關聯規則挖掘算法
- - 3.2.1 Apriori（掌握）
  - 3.2.2 FP-Growth（了解）
- 3.3 關聯規則評估（了解)
第四章分類/回歸
- 4.1 Decision Tree
- 4.2 KNN
- 4.3 Naive Bayes
- 4.4 SVM
- 4.5 ANN
- - 4.5.1 多層前饋神經網路
  - 4.5.2 感覺機模型
  - 4.5.3 後向傳播網絡（BP）
- 4.6 分類算法對比
- 4.7 內建學習
- 4.8 分類評價
- 4.9 內建學習
第五章聚類分析和噪聲檢測
- 5.1 聚類的概念及其算法（掌握）
- 5.2 Kmeans聚類（掌握）
- 5.3 DBSCAN（了解）
- 5.4 聚類算法對比
- 5.5 離群點類型
第六章大資料分析
- 6.1 哈希技術
- - MinHash
  - LSH
- 6.2 資料流挖掘
- 6.3 Hadoop/Spark

第一章資料挖掘與大資料簡介

複習視訊位址

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

大資料：大資料(Big data)是一個流行詞或短語，用來描述大量的結構化和非結構化資料，這些資料大到難以使用傳統資料庫和軟體技術處理。特征：海量性，多樣性，實時性，不确定性

什麼是資料挖掘

從大量的資料中挖掘那些令人感興趣的、有用的、隐含的、先前未知的和可能有用的模式和知識
知識發現過程

資料清理，資料內建，資料選擇，資料變換，資料挖掘，模式評估，知識表示、

資料挖掘是知識發現的核心

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
資料挖掘功能/任務

關聯規則挖掘，聚類，分類/回歸，噪聲檢測，孤立點分析等
資料挖掘的常識性知識

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

第二章認識資料與資料預處理

2.1 認識資料

2.1.1 屬性類型

離散屬性與連續屬性：

取值是否連續（int, float等）

對稱屬性與非對稱屬性：

對稱:0,1;男/女；非對稱: 一個比另一個重要

2.1.2 資料集類型

記錄資料

資料矩陣、文檔資料、購物籃資料
圖資料

網際網路、分子結構
有序資料

時序資料、序列資料、基因序列資料、空間資料

2.1.3 資料的統計描述

資料的散步

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
可視化

包括分位數圖、分位數-分位數圖（橫向對比）、直方圖、散點圖等

2.1.4 資料的相似性度量

标稱屬性資料

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
二進制變量屬性資料

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
example

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
序數型變量資料

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
數值屬性資料

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料标準化

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

混合型資料

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
相似性度量方式

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料內建–相關分析

數值型資料—相關分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

标稱資料----卡方檢驗

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

2.2 資料預處理

主要任務

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

2.2.1 缺失值處理

2.2.2 特征篩選

資訊熵—條件資訊熵—資訊增益

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

2.2.3 歸一化

第三章關聯規則挖掘

3.1 幾個重要概念

支援度、置信度、頻繁項集、關聯規則（掌握）

支援度

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
置信度

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
頻繁項集（Frequent itemset）

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
關聯規則

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

example

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

3.2 關聯規則挖掘算法

關聯規則挖掘

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
挖掘關聯規則的一般步驟

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

3.2.1 Apriori（掌握）

-計算複雜性

提高Apriori算法效率的方法

基于散列的技術

散列項集到對應的桶中，一個其hash桶的計數小于門檻值k-itemset不可能是頻繁的

事務壓縮

删除不可能對尋找頻繁項集有用的事務（DB原始事務/記錄）

不包含任何頻繁k項集的事務不可能包含任何頻繁k+1項集，可标記或删除

劃分

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

抽樣

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

3.2.2 FP-Growth（了解）

構造

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
優缺點

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
頻繁模式挖掘核心

（詳細見黑皮書P168頁）

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

3.3 關聯規則評估（了解)

第四章分類/回歸

分類 vs 預測

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
- 監督學習和非監督學習

模型分類

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
經典分類方法

（1）Decision Tree

（2）KNN

（3）Naive Bayes

（4）SVM

（5）ANN

4.1 Decision Tree

構造流程

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
屬性選擇度量

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資訊增益（ID3）

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
增益率（C4.5）

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
Gini名額（CART）

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

過拟合和剪枝

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

4.2 KNN

基本思想

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
常見問題

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

4.3 Naive Bayes

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
例題：黑皮書 P229

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

4.4 SVM

結構風險–經驗風險

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

4.5 ANN

4.5.1 多層前饋神經網路

誤差修正

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

4.5.2 感覺機模型

4.5.3 後向傳播網絡（BP）

ANN優缺點

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

4.6 分類算法對比

分類算法	應用場景	優點	缺點
決策樹	搜尋排序,期權定價	超強的學習能力和泛化能力（對新樣本的适應能力），訓練速度快	易過拟合，改進為随機森林（Random Forest, RF）
KNN	圖像壓縮	易于了解和實作，适合多分類問題	計算量大，複雜度高，不适合實時場景
樸素貝葉斯	文本分類（如：垃圾郵件識别）	生成式模型，通過計算機率來進行分類，可以用來處理多分類問題，對小規模的資料表現很好，适合多分類任務，适合增量式訓練，算法也比較簡單。	需要一個很強的條件獨立性假設前提
SVM	高維文本分類，小樣本分類	可以解決小樣本情況下的機器學習問題，可以解決高維問題可以避免神經網絡結構選擇和局部極小點問題	核函數敏感，不加修改的情況下隻能做二分類
ANN	圖像處理，模式識别	具有實作任何複雜非線性映射的功能	收斂速度慢、計算量大、訓練時間長，易收斂到局部最優

4.7 內建學習

4.8 分類評價

4.9 內建學習

第五章聚類分析和噪聲檢測

5.1 聚類的概念及其算法（掌握）

什麼是聚類？聚類算法的4大類型，分别的算法有哪些

聚類

就是将資料分為多個簇（Clusters），使得在同一個簇内對象之間具有較高的相似度，而不同簇之間的對象差别較大。
聚類算法分類

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
劃分的方法代表算法：K-Means, K-Medoids

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
層次的方法代表算法：AGNES凝聚，DIANA分裂

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
基于密度的方法代表算法：DBSCAN

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
基于網格的方法代表算法: STING

5.2 Kmeans聚類（掌握）

5.3 DBSCAN（了解）

5.4 聚類算法對比

聚類算法	應用場景	優點	缺點
K-Means	簡單快速，對于大資料集，算法是相對可伸縮和高效率的	必須給定k值；對初值敏感，可能導緻不同結果；不适合發現非球形狀的簇或者大小差别很大的簇;對于噪聲和孤立點資料是敏感的
DBSCAN	可發現任意形狀的簇，對噪聲資料不敏感	算法複雜，如果資料庫比較大的時候I/O開銷大，對參數EPS和Minst非常敏感

5.5 離群點類型

全局離群點、情景離群點、集體離群點

第六章大資料分析

6.1 哈希技術

MinHash

LSH

可行性理論證明

6.2 資料流挖掘

資料流

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
挑戰

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
概念漂移

在預測分析和機器學習中，漂移的概念意味着目标變量的統計屬性，也就是模型試圖預測的，會随着時間以不可預見的方式發生變化。

檢測方法

分類

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

VFDT

6.3 Hadoop/Spark

什麼是Hadoop/Spark

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
Hadoop設計準則

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
HDFS

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析
MapReduce

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

MapReduce vs Spark

資料挖掘複習提綱第一章資料挖掘與大資料簡介第二章認識資料與資料預處理第三章關聯規則挖掘第四章分類/回歸第五章聚類分析和噪聲檢測第六章大資料分析

MapReduce 整個算法的瓶頸是不必要的資料讀寫，而Spark 主要改進的就是這一點。具體地，Spark 延續了MapReduce 的設計思路：對資料的計算也分為Map 和Reduce 兩類。但不同的是，一個Spark 任務并不止包含一個Map 和一個Reduce，而是由一系列的Map、Reduce構成。這樣，計算的中間結果可以高效地轉給下一個計算步驟，提高算法性能。雖然Spark 的改進看似很小，但實驗結果顯示，它的算法性能相比MapReduce 提高了10～100 倍。

Spark将資料也存在HDFS，但讀成RDD（彈性式分布資料集）格式，基于記憶體計算

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析