天天看點

機器學習—機器學習2.常見算法3.機器學習算法詳解

機器學習: 不直接針對問題進行程式設計的情況下,賦予計算機學習能力的一個研究領域

針對某類任務T和性能度量P,如果一個計算機程式T上以P衡量的性能随着經驗E而自我完善,那麼我們稱這個計算機程式在從經驗E學習

2.常見算法

2.1 有監督算法

樣本資料中有結果标記

分類

按原理分

  1. 基于統計 貝葉斯分類
  2. 基于規則 決策樹算法
  3. 基于神經網絡 神經網絡算法
  4. 基于距離 KNN(K最近鄰)

常用評估名額

  1. 精确率 預測結果與實際結果的比例
  2. 召回率 預測結果中某類結果的正确覆寫率
  3. F1-Score 統計量,綜合評估分類模型 取值0-1之間

回歸算法

2.1.1 KNN算法

k-Nearest Neighbour 分類算法中最簡單的算法之一,如果離某一個樣本最近的k個樣本中的大多數資料都屬于某個類别,那麼就認為該樣本也屬于該類别,并具有該類上樣本的特性,KNN不僅能預測分類,還可以做回歸分析(預測具體的值)

機器學習—機器學習2.常見算法3.機器學習算法詳解

2.1.2 決策樹算法

機器學習—機器學習2.常見算法3.機器學習算法詳解
機器學習—機器學習2.常見算法3.機器學習算法詳解
機器學習—機器學習2.常見算法3.機器學習算法詳解
機器學習—機器學習2.常見算法3.機器學習算法詳解
機器學習—機器學習2.常見算法3.機器學習算法詳解
機器學習—機器學習2.常見算法3.機器學習算法詳解

2.2. 無監督算法

樣本資料中無結果标記

2.2.1 聚類

  1. 層次聚類
  2. 密度聚類
  3. 劃分聚類
  4. 機器學習—機器學習2.常見算法3.機器學習算法詳解
機器學習—機器學習2.常見算法3.機器學習算法詳解

2.3 半監督算法

樣本資料中部分有結果标記

機器學習—機器學習2.常見算法3.機器學習算法詳解

3.機器學習算法詳解

3.1 機器學習基礎知識

3.1.1機器學習的基本概念

  1. 輸入空間:将輸入的所有可能取值的集合稱作輸入空間
  2. 輸出空間:将輸出的所有可能取值的集合稱作輸出空間
  3. 特征:即屬性
  4. 特征向量:多個特征組成的向量成為特征向量
  5. 特征空間:将特征向量存在的空間稱作特征空間
  6. 假設空間:有輸入空間到輸出空間的映射的集合

3.1.2機器學習的實質

3.1.3 機器學習方法的三要素

方法=模型+政策+算法

  1. 模型:輸入空間到輸出空間的映射關系,選擇的合适的假設空間
  2. 機器學習—機器學習2.常見算法3.機器學習算法詳解

政策:從衆多的假設空間中算則到最優的模型的學習标準或規則

機器學習—機器學習2.常見算法3.機器學習算法詳解
    1. 損失函數: 用于衡量預測結果和真實結果之間的差距,其值越小,代表預結果和真實結果越一直 通常是一個非負實值函數, 通過各種方式縮小損失函數的過程被稱作優化,損失函數記作 L(Y,f(x))
      1. 0-1損失函數 預測值和實際值相等則沒有損失,否則為完全損失
      2. 絕對值損失函數: 預測結果與真實結果差的絕對值
      3. 平方損失函數: 預測結果與真實結果差的平方
      4. 對數損失函數: 對數函數具有單調性,在求最優化問題時,結果與原始目标一緻,可将乘法轉換為加法
      5. 指數損失函數:單調性,非負性的優良性質.使得越接近正确結果誤差越小
      6. 折葉損失函數
    1. 經驗風險 & 風險函數
    2. 機器學習—機器學習2.常見算法3.機器學習算法詳解
    3. 結構風險
    4. 機器學習—機器學習2.常見算法3.機器學習算法詳解
    5. 機器學習—機器學習2.常見算法3.機器學習算法詳解

3.2 模型評估與選擇

3.2.1 模型選擇的原則

3.2.1.1 基本概念

  1. 誤差: 模型的預測輸出值與其真實值之間的差異
  2. 訓練: 通過已知的樣本資料進行學習,進而得到模型的過程
  3. 訓練誤差: 模型作用與訓練集時的誤差
  4. 泛化: 從特殊到一般,對機器學習來說指的是從模型作用于新的樣本資料
  5. 泛化誤差: 模型作用于新的樣本資料時的誤差
  6. 模型容量: 拟合各種模型的能力
  7. 過拟合: 某個模型在樣本上表現好,在新樣本上表現差
  8. 欠拟合: 模型對訓練集的表現不好
  9. 模型選擇: 選擇泛化誤差最小的模型

3.2.2 模型的性能名額

3.2.3 模型評估的方法

  1. 留出法: 使用80%的已知資料集作為訓練集訓練模型,使用剩下的20%作為測試集測試訓練好的模型,使用測試集得出的測試誤差作為泛化誤差的近似值,取測試誤差較小的模型
    1. 測試集和訓練集盡量互斥
    2. 測試集和訓練集獨立同分布
  1. 交叉驗證法: 将資料集分為k個互斥的資料子集.子集資料采用分層采樣,每次從中選取一個資料集作為測試集,其餘用作訓練集,進行k次訓練和測試,得到平均值,該驗證方法稱為k折交叉驗證   使用不同的劃分,重複p次,稱為p次k折交叉驗證

3.2.4 模型性能的比較

3.2.4.1 回歸算法的性能度量

機器學習—機器學習2.常見算法3.機器學習算法詳解

3.2.4.2 分類算法的性能度量

若有收獲,就點個贊吧

繼續閱讀