文章目錄
- 第一章 資料挖掘與大資料簡介
- 第二章 認識資料與資料預處理
-
- 2.1 認識資料
-
- 2.1.1 屬性類型
- 2.1.2 資料集類型
- 2.1.3 資料的統計描述
- 2.1.4 資料的相似性度量
- 2.2 資料預處理
-
- 2.2.1 缺失值處理
- 2.2.2 特征篩選
- 2.2.3 歸一化
- 第三章 關聯規則挖掘
-
- 3.1 幾個重要概念
- 3.2 關聯規則挖掘算法
-
- 3.2.1 Apriori(掌握)
- 3.2.2 FP-Growth(了解)
- 3.3 關聯規則評估(了解)
- 第四章 分類/回歸
-
- 4.1 Decision Tree
- 4.2 KNN
- 4.3 Naive Bayes
- 4.4 SVM
- 4.5 ANN
-
- 4.5.1 多層前饋神經網路
- 4.5.2 感覺機模型
- 4.5.3 後向傳播網絡(BP)
- 4.6 分類算法對比
- 4.7 內建學習
- 4.8 分類評價
- 4.9 內建學習
- 第五章 聚類分析和噪聲檢測
-
- 5.1 聚類的概念及其算法(掌握)
- 5.2 Kmeans聚類(掌握)
- 5.3 DBSCAN(了解)
- 5.4 聚類算法對比
- 5.5 離群點類型
- 第六章 大資料分析
-
- 6.1 哈希技術
-
- MinHash
- LSH
- 6.2 資料流挖掘
- 6.3 Hadoop/Spark
第一章 資料挖掘與大資料簡介
複習視訊位址

大資料:大資料(Big data)是一個流行詞或短語,用來描述大量的結構化和非結構化資料,這些資料大到難以使用傳統資料庫和軟體技術處理。特征:海量性,多樣性,實時性,不确定性
-
什麼是資料挖掘
從大量的資料中挖掘那些令人感興趣的、有用的、隐含的、先前未知的和可能有用的模式和知識
-
知識發現過程
資料清理,資料內建,資料選擇,資料變換,資料挖掘,模式評估,知識表示、
資料挖掘是知識發現的核心
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 -
資料挖掘功能/任務
關聯規則挖掘,聚類,分類/回歸,噪聲檢測,孤立點分析等
- 資料挖掘的常識性知識
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
第二章 認識資料與資料預處理
2.1 認識資料
2.1.1 屬性類型
離散屬性與連續屬性:
取值是否連續(int, float等)
對稱屬性與非對稱屬性:
對稱:0,1;男/女;非對稱: 一個比另一個重要
2.1.2 資料集類型
-
記錄資料
資料矩陣、文檔資料、購物籃資料
-
圖資料
網際網路、分子結構
-
有序資料
時序資料、序列資料、基因序列資料、空間資料
2.1.3 資料的統計描述
- 資料的散步
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 -
可視化
包括分位數圖、分位數-分位數圖(橫向對比)、直方圖、散點圖等
2.1.4 資料的相似性度量
- 标稱屬性資料
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 二進制變量屬性資料 example
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 序數型變量資料
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 數值屬性資料
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料标準化![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
- 混合型資料
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 相似性度量方式
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料內建–相關分析
- 數值型資料—相關分析
![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 ![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
- 标稱資料----卡方檢驗
![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 ![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
2.2 資料預處理
- 主要任務
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
2.2.1 缺失值處理
2.2.2 特征篩選
資訊熵—條件資訊熵—資訊增益![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 ![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 ![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 ![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
2.2.3 歸一化
第三章 關聯規則挖掘
3.1 幾個重要概念
支援度、置信度、頻繁項集、關聯規則(掌握)
- 支援度
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 置信度
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 頻繁項集(Frequent itemset)
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 關聯規則
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
example![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
3.2 關聯規則挖掘算法
- 關聯規則挖掘
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 挖掘關聯規則的一般步驟
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
3.2.1 Apriori(掌握)
-計算複雜性
- 提高Apriori算法效率的方法
基于散列的技術
散列項集到對應的桶中,一個其hash桶的計數小于門檻值k-itemset不可能是頻繁的
事務壓縮
删除不可能對尋找頻繁項集有用的事務(DB原始事務/記錄)
不包含任何頻繁k項集的事務不可能包含任何頻繁k+1項集,可标記或删除
- 劃分
![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 抽樣
![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
3.2.2 FP-Growth(了解)
- 構造
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 優缺點
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 -
頻繁模式挖掘核心
(詳細見黑皮書P168頁)
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
3.3 關聯規則評估(了解)
第四章 分類/回歸
- 分類 vs 預測 - 監督學習和非監督學習
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
- 模型分類
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 -
經典分類方法
(1)Decision Tree
(2)KNN
(3)Naive Bayes
(4)SVM
(5)ANN
4.1 Decision Tree
- 構造流程
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 屬性選擇度量
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
- 資訊增益(ID3)
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 增益率(C4.5)
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - Gini名額(CART)
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
- 過拟合和剪枝
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 ![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
4.2 KNN
- 基本思想
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 常見問題
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
4.3 Naive Bayes
例題:黑皮書 P229![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 ![]()
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
4.4 SVM
- 結構風險–經驗風險
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
4.5 ANN
4.5.1 多層前饋神經網路
- 誤差修正
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
4.5.2 感覺機模型
4.5.3 後向傳播網絡(BP)
- ANN優缺點
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
4.6 分類算法對比
分類算法 | 應用場景 | 優點 | 缺點 |
---|---|---|---|
決策樹 | 搜尋排序,期權定價 | 超強的學習能力和泛化能力(對新樣本的适應能力),訓練速度快 | 易過拟合,改進為随機森林(Random Forest, RF) |
KNN | 圖像壓縮 | 易于了解和實作,适合多分類問題 | 計算量大,複雜度高,不适合實時場景 |
樸素貝葉斯 | 文本分類(如:垃圾郵件識别) | 生成式模型,通過計算機率來進行分類,可以用來處理多分類問題,對小規模的資料表現很好,适合多分類任務,适合增量式訓練,算法也比較簡單。 | 需要一個很強的條件獨立性假設前提 |
SVM | 高維文本分類,小樣本分類 | 可以解決小樣本情況下的機器學習問題,可以解決高維問題 可以避免神經網絡結構選擇和局部極小點問題 | 核函數敏感,不加修改的情況下隻能做二分類 |
ANN | 圖像處理,模式識别 | 具有實作任何複雜非線性映射的功能 | 收斂速度慢、計算量大、訓練時間長,易收斂到局部最優 |
4.7 內建學習
4.8 分類評價
4.9 內建學習
第五章 聚類分析和噪聲檢測
5.1 聚類的概念及其算法(掌握)
什麼是聚類?聚類算法的4大類型,分别的算法有哪些
-
聚類
就是将資料分為多個簇(Clusters),使得在同一個簇内對象之間具有較高的相似度,而不同簇之間的對象差别較大。
- 聚類算法分類
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 劃分的方法代表算法:K-Means, K-Medoids
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 層次的方法代表算法:AGNES凝聚,DIANA分裂
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 基于密度的方法代表算法:DBSCAN
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 基于網格的方法代表算法: STING
5.2 Kmeans聚類(掌握)
5.3 DBSCAN(了解)
5.4 聚類算法對比
聚類算法 | 應用場景 | 優點 | 缺點 |
---|---|---|---|
K-Means | 簡單快速,對于大資料集,算法是相對可伸縮和高效率的 | 必須給定k值;對初值敏感,可能導緻不同結果;不适合發現非球形狀的簇或者大小差别很大的簇;對于噪聲和孤立點資料是敏感的 | |
DBSCAN | 可發現任意形狀的簇,對噪聲資料不敏感 | 算法複雜,如果資料庫比較大的時候I/O開銷大,對參數EPS和Minst非常敏感 |
5.5 離群點類型
全局離群點、情景離群點、集體離群點
第六章 大資料分析
6.1 哈希技術
MinHash
LSH
可行性理論證明
6.2 資料流挖掘
- 資料流
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 挑戰
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - 概念漂移
在預測分析和機器學習中,漂移的概念意味着目标變量的統計屬性,也就是模型試圖預測的,會随着時間以不可預見的方式發生變化。
檢測方法
- 分類
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
VFDT
6.3 Hadoop/Spark
- 什麼是Hadoop/Spark
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - Hadoop設計準則
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - HDFS
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析 - MapReduce
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
- MapReduce vs Spark
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
MapReduce 整個算法的瓶頸是不必要的資料讀寫,而Spark 主要改進的就是這一點。具體地,Spark 延續了MapReduce 的設計思路:對資料的計算也分為Map 和Reduce 兩類。但不同的是,一個Spark 任務并不止包含一個Map 和一個Reduce,而是由一系列的Map、Reduce構成。這樣,計算的中間結果可以高效地轉給下一個計算步驟,提高算法性能。雖然Spark 的改進看似很小,但實驗結果顯示,它的算法性能相比MapReduce 提高了10~100 倍。
Spark将資料也存在HDFS,但讀成RDD(彈性式分布資料集)格式,基于記憶體計算