文章目錄
- 第一章 資料挖掘與大資料簡介
- 第二章 認識資料與資料預處理
-
- 2.1 認識資料
-
- 2.1.1 屬性類型
- 2.1.2 資料集類型
- 2.1.3 資料的統計描述
- 2.1.4 資料的相似性度量
- 2.2 資料預處理
-
- 2.2.1 缺失值處理
- 2.2.2 特征篩選
- 2.2.3 歸一化
- 第三章 關聯規則挖掘
-
- 3.1 幾個重要概念
- 3.2 關聯規則挖掘算法
-
- 3.2.1 Apriori(掌握)
- 3.2.2 FP-Growth(了解)
- 3.3 關聯規則評估(了解)
- 第四章 分類/回歸
-
- 4.1 Decision Tree
- 4.2 KNN
- 4.3 Naive Bayes
- 4.4 SVM
- 4.5 ANN
-
- 4.5.1 多層前饋神經網路
- 4.5.2 感覺機模型
- 4.5.3 後向傳播網絡(BP)
- 4.6 分類算法對比
- 4.7 內建學習
- 4.8 分類評價
- 4.9 內建學習
- 第五章 聚類分析和噪聲檢測
-
- 5.1 聚類的概念及其算法(掌握)
- 5.2 Kmeans聚類(掌握)
- 5.3 DBSCAN(了解)
- 5.4 聚類算法對比
- 5.5 離群點類型
- 第六章 大資料分析
-
- 6.1 哈希技術
-
- 6.2 資料流挖掘
- 6.3 Hadoop/Spark
第一章 資料挖掘與大資料簡介
複習視訊位址
大資料:大資料(Big data)是一個流行詞或短語,用來描述大量的結構化和非結構化資料,這些資料大到難以使用傳統資料庫和軟體技術處理。特征:海量性,多樣性,實時性,不确定性
-
什麼是資料挖掘
從大量的資料中挖掘那些令人感興趣的、有用的、隐含的、先前未知的和可能有用的模式和知識
-
知識發現過程
資料清理,資料內建,資料選擇,資料變換,資料挖掘,模式評估,知識表示、
資料挖掘是知識發現的核心
-
資料挖掘功能/任務
關聯規則挖掘,聚類,分類/回歸,噪聲檢測,孤立點分析等
- 資料挖掘的常識性知識
第二章 認識資料與資料預處理
2.1 認識資料
2.1.1 屬性類型
離散屬性與連續屬性:
取值是否連續(int, float等)
對稱屬性與非對稱屬性:
對稱:0,1;男/女;非對稱: 一個比另一個重要
2.1.2 資料集類型
-
記錄資料
資料矩陣、文檔資料、購物籃資料
-
圖資料
網際網路、分子結構
-
有序資料
時序資料、序列資料、基因序列資料、空間資料
2.1.3 資料的統計描述
2.1.4 資料的相似性度量
- 标稱屬性資料
- 二進制變量屬性資料 example
- 序數型變量資料
- 數值屬性資料
資料标準化
- 混合型資料
- 相似性度量方式
資料內建–相關分析 - 數值型資料—相關分析
- 标稱資料----卡方檢驗
2.2 資料預處理
- 主要任務
2.2.1 缺失值處理
2.2.2 特征篩選
資訊熵—條件資訊熵—資訊增益
2.2.3 歸一化
第三章 關聯規則挖掘
3.1 幾個重要概念
支援度、置信度、頻繁項集、關聯規則(掌握)
- 支援度
- 置信度
- 頻繁項集(Frequent itemset)
- 關聯規則
example
3.2 關聯規則挖掘算法
- 關聯規則挖掘
- 挖掘關聯規則的一般步驟
3.2.1 Apriori(掌握)
-計算複雜性
-
基于散列的技術
散列項集到對應的桶中,一個其hash桶的計數小于門檻值k-itemset不可能是頻繁的
-
事務壓縮
删除不可能對尋找頻繁項集有用的事務(DB原始事務/記錄)
不包含任何頻繁k項集的事務不可能包含任何頻繁k+1項集,可标記或删除
- 劃分
- 抽樣
3.2.2 FP-Growth(了解)
3.3 關聯規則評估(了解)
第四章 分類/回歸
- 分類 vs 預測 - 監督學習和非監督學習
- 模型分類
-
經典分類方法
(1)Decision Tree
(2)KNN
(3)Naive Bayes
(4)SVM
(5)ANN
4.1 Decision Tree
- 構造流程
- 屬性選擇度量
- 資訊增益(ID3)
- 增益率(C4.5)
- Gini名額(CART)
- 過拟合和剪枝
4.2 KNN
- 基本思想
- 常見問題
4.3 Naive Bayes
例題:黑皮書 P229
4.4 SVM
- 結構風險–經驗風險
4.5 ANN
4.5.1 多層前饋神經網路
- 誤差修正
4.5.2 感覺機模型
4.5.3 後向傳播網絡(BP)
- ANN優缺點
4.6 分類算法對比
分類算法 | 應用場景 | 優點 | 缺點 |
決策樹 | 搜尋排序,期權定價 | 超強的學習能力和泛化能力(對新樣本的适應能力),訓練速度快 | 易過拟合,改進為随機森林(Random Forest, RF) |
KNN | 圖像壓縮 | 易于了解和實作,适合多分類問題 | 計算量大,複雜度高,不适合實時場景 |
樸素貝葉斯 | 文本分類(如:垃圾郵件識别) | 生成式模型,通過計算機率來進行分類,可以用來處理多分類問題,對小規模的資料表現很好,适合多分類任務,适合增量式訓練,算法也比較簡單。 | 需要一個很強的條件獨立性假設前提 |
SVM | 高維文本分類,小樣本分類 | 可以解決小樣本情況下的機器學習問題,可以解決高維問題 可以避免神經網絡結構選擇和局部極小點問題 | 核函數敏感,不加修改的情況下隻能做二分類 |
ANN | 圖像處理,模式識别 | 具有實作任何複雜非線性映射的功能 | 收斂速度慢、計算量大、訓練時間長,易收斂到局部最優 |
4.7 內建學習
4.8 分類評價
4.9 內建學習
第五章 聚類分析和噪聲檢測
5.1 聚類的概念及其算法(掌握)
什麼是聚類?聚類算法的4大類型,分别的算法有哪些
5.2 Kmeans聚類(掌握)
5.3 DBSCAN(了解)
5.4 聚類算法對比
聚類算法 | 應用場景 | 優點 | 缺點 |
K-Means | 簡單快速,對于大資料集,算法是相對可伸縮和高效率的 | 必須給定k值;對初值敏感,可能導緻不同結果;不适合發現非球形狀的簇或者大小差别很大的簇;對于噪聲和孤立點資料是敏感的 |
DBSCAN | 可發現任意形狀的簇,對噪聲資料不敏感 | 算法複雜,如果資料庫比較大的時候I/O開銷大,對參數EPS和Minst非常敏感 |
5.5 離群點類型
全局離群點、情景離群點、集體離群點
第六章 大資料分析
6.1 哈希技術
MinHash
LSH
可行性理論證明
6.2 資料流挖掘
- 資料流
- 挑戰
- 概念漂移
在預測分析和機器學習中,漂移的概念意味着目标變量的統計屬性,也就是模型試圖預測的,會随着時間以不可預見的方式發生變化。
檢測方法
- 分類
VFDT
6.3 Hadoop/Spark
- 什麼是Hadoop/Spark
- Hadoop設計準則
- HDFS
- MapReduce
- MapReduce vs Spark
MapReduce 整個算法的瓶頸是不必要的資料讀寫,而Spark 主要改進的就是這一點。具體地,Spark 延續了MapReduce 的設計思路:對資料的計算也分為Map 和Reduce 兩類。但不同的是,一個Spark 任務并不止包含一個Map 和一個Reduce,而是由一系列的Map、Reduce構成。這樣,計算的中間結果可以高效地轉給下一個計算步驟,提高算法性能。雖然Spark 的改進看似很小,但實驗結果顯示,它的算法性能相比MapReduce 提高了10~100 倍。
Spark将資料也存在HDFS,但讀成RDD(彈性式分布資料集)格式,基于記憶體計算