機器學習: 不直接針對問題進行程式設計的情況下,賦予計算機學習能力的一個研究領域
針對某類任務T和性能度量P,如果一個計算機程式T上以P衡量的性能随着經驗E而自我完善,那麼我們稱這個計算機程式在從經驗E學習
2.常見算法
2.1 有監督算法
樣本資料中有結果标記
分類
按原理分
- 基于統計 貝葉斯分類
- 基于規則 決策樹算法
- 基于神經網絡 神經網絡算法
- 基于距離 KNN(K最近鄰)
常用評估名額
- 精确率 預測結果與實際結果的比例
- 召回率 預測結果中某類結果的正确覆寫率
- F1-Score 統計量,綜合評估分類模型 取值0-1之間
回歸算法
2.1.1 KNN算法
k-Nearest Neighbour 分類算法中最簡單的算法之一,如果離某一個樣本最近的k個樣本中的大多數資料都屬于某個類别,那麼就認為該樣本也屬于該類别,并具有該類上樣本的特性,KNN不僅能預測分類,還可以做回歸分析(預測具體的值)
2.1.2 決策樹算法
2.2. 無監督算法
樣本資料中無結果标記
2.2.1 聚類
- 層次聚類
- 密度聚類
- 劃分聚類
2.3 半監督算法
樣本資料中部分有結果标記
3.機器學習算法詳解
3.1 機器學習基礎知識
3.1.1機器學習的基本概念
- 輸入空間:将輸入的所有可能取值的集合稱作輸入空間
- 輸出空間:将輸出的所有可能取值的集合稱作輸出空間
- 特征:即屬性
- 特征向量:多個特征組成的向量成為特征向量
- 特征空間:将特征向量存在的空間稱作特征空間
- 假設空間:有輸入空間到輸出空間的映射的集合
3.1.2機器學習的實質
3.1.3 機器學習方法的三要素
方法=模型+政策+算法
- 模型:輸入空間到輸出空間的映射關系,選擇的合适的假設空間
政策:從衆多的假設空間中算則到最優的模型的學習标準或規則
-
- 損失函數: 用于衡量預測結果和真實結果之間的差距,其值越小,代表預結果和真實結果越一直 通常是一個非負實值函數, 通過各種方式縮小損失函數的過程被稱作優化,損失函數記作 L(Y,f(x))
-
-
- 0-1損失函數 預測值和實際值相等則沒有損失,否則為完全損失
- 絕對值損失函數: 預測結果與真實結果差的絕對值
- 平方損失函數: 預測結果與真實結果差的平方
- 對數損失函數: 對數函數具有單調性,在求最優化問題時,結果與原始目标一緻,可将乘法轉換為加法
- 指數損失函數:單調性,非負性的優良性質.使得越接近正确結果誤差越小
- 折葉損失函數
-
-
- 經驗風險 & 風險函數
- 結構風險
3.2 模型評估與選擇
3.2.1 模型選擇的原則
3.2.1.1 基本概念
- 誤差: 模型的預測輸出值與其真實值之間的差異
- 訓練: 通過已知的樣本資料進行學習,進而得到模型的過程
- 訓練誤差: 模型作用與訓練集時的誤差
- 泛化: 從特殊到一般,對機器學習來說指的是從模型作用于新的樣本資料
- 泛化誤差: 模型作用于新的樣本資料時的誤差
- 模型容量: 拟合各種模型的能力
- 過拟合: 某個模型在樣本上表現好,在新樣本上表現差
- 欠拟合: 模型對訓練集的表現不好
- 模型選擇: 選擇泛化誤差最小的模型
3.2.2 模型的性能名額
3.2.3 模型評估的方法
- 留出法: 使用80%的已知資料集作為訓練集訓練模型,使用剩下的20%作為測試集測試訓練好的模型,使用測試集得出的測試誤差作為泛化誤差的近似值,取測試誤差較小的模型
-
- 測試集和訓練集盡量互斥
- 測試集和訓練集獨立同分布
- 交叉驗證法: 将資料集分為k個互斥的資料子集.子集資料采用分層采樣,每次從中選取一個資料集作為測試集,其餘用作訓練集,進行k次訓練和測試,得到平均值,該驗證方法稱為k折交叉驗證 使用不同的劃分,重複p次,稱為p次k折交叉驗證
3.2.4 模型性能的比較
3.2.4.1 回歸算法的性能度量
3.2.4.2 分類算法的性能度量
若有收獲,就點個贊吧