天天看點

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

文章目錄

  • 第一章 資料挖掘與大資料簡介
  • 第二章 認識資料與資料預處理
    • 2.1 認識資料
      • 2.1.1 屬性類型
      • 2.1.2 資料集類型
      • 2.1.3 資料的統計描述
      • 2.1.4 資料的相似性度量
    • 2.2 資料預處理
      • 2.2.1 缺失值處理
      • 2.2.2 特征篩選
      • 2.2.3 歸一化
  • 第三章 關聯規則挖掘
    • 3.1 幾個重要概念
    • 3.2 關聯規則挖掘算法
      • 3.2.1 Apriori(掌握)
      • 3.2.2 FP-Growth(了解)
    • 3.3 關聯規則評估(了解)
  • 第四章 分類/回歸
    • 4.1 Decision Tree
    • 4.2 KNN
    • 4.3 Naive Bayes
    • 4.4 SVM
    • 4.5 ANN
      • 4.5.1 多層前饋神經網路
      • 4.5.2 感覺機模型
      • 4.5.3 後向傳播網絡(BP)
    • 4.6 分類算法對比
    • 4.7 內建學習
    • 4.8 分類評價
    • 4.9 內建學習
  • 第五章 聚類分析和噪聲檢測
    • 5.1 聚類的概念及其算法(掌握)
    • 5.2 Kmeans聚類(掌握)
    • 5.3 DBSCAN(了解)
    • 5.4 聚類算法對比
    • 5.5 離群點類型
  • 第六章 大資料分析
    • 6.1 哈希技術
      • MinHash
      • LSH
    • 6.2 資料流挖掘
    • 6.3 Hadoop/Spark

第一章 資料挖掘與大資料簡介

複習視訊位址

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
大資料:大資料(Big data)是一個流行詞或短語,用來描述大量的結構化和非結構化資料,這些資料大到難以使用傳統資料庫和軟體技術處理。特征:海量性,多樣性,實時性,不确定性
  1. 什麼是資料挖掘

    從大量的資料中挖掘那些令人感興趣的、有用的、隐含的、先前未知的和可能有用的模式和知識

  2. 知識發現過程

    資料清理,資料內建,資料選擇,資料變換,資料挖掘,模式評估,知識表示、

    資料挖掘是知識發現的核心

    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  3. 資料挖掘功能/任務

    關聯規則挖掘,聚類,分類/回歸,噪聲檢測,孤立點分析等

  4. 資料挖掘的常識性知識
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

第二章 認識資料與資料預處理

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

2.1 認識資料

2.1.1 屬性類型

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

離散屬性與連續屬性:

取值是否連續(int, float等)

對稱屬性與非對稱屬性:

對稱:0,1;男/女;非對稱: 一個比另一個重要

2.1.2 資料集類型

  • 記錄資料

    資料矩陣、文檔資料、購物籃資料

  • 圖資料

    網際網路、分子結構

  • 有序資料

    時序資料、序列資料、基因序列資料、空間資料

2.1.3 資料的統計描述

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 資料的散步
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 可視化

    包括分位數圖、分位數-分位數圖(橫向對比)、直方圖、散點圖等

2.1.4 資料的相似性度量

  1. 标稱屬性資料
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  2. 二進制變量屬性資料
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    example
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  3. 序數型變量資料
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  4. 數值屬性資料
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料标準化
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  1. 混合型資料
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  2. 相似性度量方式
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料內建–相關分析
  1. 數值型資料—相關分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  1. 标稱資料----卡方檢驗
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

2.2 資料預處理

  • 主要任務
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

2.2.1 缺失值處理

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

2.2.2 特征篩選

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資訊熵—條件資訊熵—資訊增益
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

2.2.3 歸一化

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

第三章 關聯規則挖掘

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

3.1 幾個重要概念

支援度、置信度、頻繁項集、關聯規則(掌握)
  • 支援度
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 置信度
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 頻繁項集(Frequent itemset)
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 關聯規則
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
example
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

3.2 關聯規則挖掘算法

  • 關聯規則挖掘
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 挖掘關聯規則的一般步驟
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

3.2.1 Apriori(掌握)

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

-計算複雜性

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 提高Apriori算法效率的方法
  1. 基于散列的技術

    散列項集到對應的桶中,一個其hash桶的計數小于門檻值k-itemset不可能是頻繁的

  2. 事務壓縮

    删除不可能對尋找頻繁項集有用的事務(DB原始事務/記錄)

    不包含任何頻繁k項集的事務不可能包含任何頻繁k+1項集,可标記或删除

  3. 劃分
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  4. 抽樣
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

3.2.2 FP-Growth(了解)

  • 構造
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 優缺點
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 頻繁模式挖掘核心

    (詳細見黑皮書P168頁)

    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

3.3 關聯規則評估(了解)

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

第四章 分類/回歸

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 分類 vs 預測
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    - 監督學習和非監督學習
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 模型分類
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 經典分類方法

    (1)Decision Tree

    (2)KNN

    (3)Naive Bayes

    (4)SVM

    (5)ANN

4.1 Decision Tree

  • 構造流程
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 屬性選擇度量
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  1. 資訊增益(ID3)
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  2. 增益率(C4.5)
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  3. Gini名額(CART)
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 過拟合和剪枝
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

4.2 KNN

  • 基本思想
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 常見問題
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

4.3 Naive Bayes

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
例題:黑皮書 P229
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

4.4 SVM

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 結構風險–經驗風險
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

4.5 ANN

4.5.1 多層前饋神經網路

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 誤差修正
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

4.5.2 感覺機模型

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

4.5.3 後向傳播網絡(BP)

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • ANN優缺點
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

4.6 分類算法對比

分類算法 應用場景 優點 缺點
決策樹 搜尋排序,期權定價 超強的學習能力和泛化能力(對新樣本的适應能力),訓練速度快 易過拟合,改進為随機森林(Random Forest, RF)
KNN 圖像壓縮 易于了解和實作,适合多分類問題 計算量大,複雜度高,不适合實時場景
樸素貝葉斯 文本分類(如:垃圾郵件識别) 生成式模型,通過計算機率來進行分類,可以用來處理多分類問題,對小規模的資料表現很好,适合多分類任務,适合增量式訓練,算法也比較簡單。 需要一個很強的條件獨立性假設前提
SVM 高維文本分類,小樣本分類 可以解決小樣本情況下的機器學習問題,可以解決高維問題 可以避免神經網絡結構選擇和局部極小點問題 核函數敏感,不加修改的情況下隻能做二分類
ANN 圖像處理,模式識别 具有實作任何複雜非線性映射的功能 收斂速度慢、計算量大、訓練時間長,易收斂到局部最優

4.7 內建學習

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

4.8 分類評價

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

4.9 內建學習

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

第五章 聚類分析和噪聲檢測

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

5.1 聚類的概念及其算法(掌握)

什麼是聚類?聚類算法的4大類型,分别的算法有哪些
  • 聚類

    就是将資料分為多個簇(Clusters),使得在同一個簇内對象之間具有較高的相似度,而不同簇之間的對象差别較大。

  • 聚類算法分類
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 劃分的方法代表算法:K-Means, K-Medoids
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 層次的方法代表算法:AGNES凝聚,DIANA分裂
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 基于密度的方法代表算法:DBSCAN
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 基于網格的方法代表算法: STING

5.2 Kmeans聚類(掌握)

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

5.3 DBSCAN(了解)

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

5.4 聚類算法對比

聚類算法 應用場景 優點 缺點
K-Means 簡單快速,對于大資料集,算法是相對可伸縮和高效率的 必須給定k值;對初值敏感,可能導緻不同結果;不适合發現非球形狀的簇或者大小差别很大的簇;對于噪聲和孤立點資料是敏感的
DBSCAN 可發現任意形狀的簇,對噪聲資料不敏感 算法複雜,如果資料庫比較大的時候I/O開銷大,對參數EPS和Minst非常敏感

5.5 離群點類型

全局離群點、情景離群點、集體離群點
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

第六章 大資料分析

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

6.1 哈希技術

MinHash

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

LSH

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

可行性理論證明

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

6.2 資料流挖掘

  • 資料流
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 挑戰
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 概念漂移

在預測分析和機器學習中,漂移的概念意味着目标變量的統計屬性,也就是模型試圖預測的,會随着時間以不可預見的方式發生變化。

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

檢測方法

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • 分類
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

VFDT

資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

6.3 Hadoop/Spark

  • 什麼是Hadoop/Spark
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • Hadoop設計準則
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • HDFS
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • MapReduce
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
  • MapReduce vs Spark
    資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析
資料挖掘複習提綱第一章 資料挖掘與大資料簡介第二章 認識資料與資料預處理第三章 關聯規則挖掘第四章 分類/回歸第五章 聚類分析和噪聲檢測第六章 大資料分析

MapReduce 整個算法的瓶頸是不必要的資料讀寫,而Spark 主要改進的就是這一點。具體地,Spark 延續了MapReduce 的設計思路:對資料的計算也分為Map 和Reduce 兩類。但不同的是,一個Spark 任務并不止包含一個Map 和一個Reduce,而是由一系列的Map、Reduce構成。這樣,計算的中間結果可以高效地轉給下一個計算步驟,提高算法性能。雖然Spark 的改進看似很小,但實驗結果顯示,它的算法性能相比MapReduce 提高了10~100 倍。

Spark将資料也存在HDFS,但讀成RDD(彈性式分布資料集)格式,基于記憶體計算

繼續閱讀