學習筆記_西瓜書（周志華機器學習）&&慕課視訊(機器學習by蔣良孝、胡成玉）（學習中。。。）

感覺未來是大資料環境下的人工智能時代呀，不能被時代的馬車抛棄，西瓜書這麼出名，簡要了解一下

1 緒論

1.1 引言

機器學習定義：利用經驗來改善計算機系統自身的性能

另外一種廣泛被引用的英文定義：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E（T：任務，P：性能評估，E：資料，一段程式利用E提升了在T上的P那麼就稱之為機器學習）

機器學習的主要内容即在資料中産生模型的算法

機器學習的核心即學習算法

機器學習動機：為了讓計算機系統具有人的學習能力以便實作人工智能

機器學習技術：神經網絡學習、決策樹學習、貝葉斯學習、最近鄰學習、線性學習、支援向量機學習等等

經驗在計算機中的表現為資料，那麼使得機器學習成為智能分析技術的創新源之一，并且是以受到越多關注

經常和另外一種智能分析技術-資料挖掘來對比

資料挖掘：識别出巨量資料中有效的、新穎的、潛在有用的、最終可了解的模式的非平凡過程

資料挖掘可以視為機器學習與資料庫的交叉，主要利用機器學習界提供的技術來分析海量資料，利用資料庫界的技術來管理海量資料

機器學習和資料挖掘既有差別又有聯系，機器學習偏理論，資料挖掘偏應用

1.2 基本術語

資料集(dataset):類比資料庫概念中的table

示例(instance) or 樣本(sample):類比資料庫中table中的row即一行記錄或稱之為元組，在空間中也可以描述為特征向量(feature vector)

屬性(attr) or 特征(feature):類比資料庫中的col即列，空間中也叫做維數(dimensionality)

屬性空間、樣本空間、輸入空間：屬性值的取值集合

學習或者訓練：從資料中産生模型的過程

訓練資料

訓練樣本

訓練集

标記(lable):關于示例結果的資訊

樣例(example):擁有了标記資訊的示例

标記空間(lable space) or 輸出空間：所有标記的集合

分類(classification)：預測的是離散值

回歸(regression):預測的連續值

聚類(clustering)

二分類：預測值隻有兩個，一個叫正類，一個叫反類

多分類：預測值多于2

測試：學得模型後，利用模型預測的過程

有監督學習：資料集有标記（分類和回歸算法屬于此）

無監督學習：資料集沒有标記（聚類算法屬于此）

泛化（generalization):學得的模型适用于新樣本的能力

1.3 假設空間

歸納(induction):特殊到一般，泛化過程(generalization)

演繹(deduction)：一般到特殊(specilization)

概念學習、布爾概念學習：研究、應用較少，因為學得語義明确泛化性能好的概念太難了

機械學習

樣本噪聲

學習：在假設空間進行搜尋的過程

假設集合、假設空間、版本空間

1.4 歸納偏好

“奧卡姆剃刀”：若有多個假設與觀察一緻，則選擇最簡單的那個

算法的歸納偏好是否與問題本身比對，大多數時候直接決定了算法能否取得好的性能

“沒有免費午餐”定理，即NFL定理：在脫離實際意義情況下，空泛地談論哪種算法好毫無意義，要談論算法優劣必須針對具體學習問題

1.5 發展曆程

機器學習是人工智能研究發展到一定階段的必然産物

學習筆記_西瓜書（周志華機器學習）&&慕課視訊(機器學習by蔣良孝、胡成玉）（學習中。。。）

1.6 應用現狀

應用廣泛

“隻要有資料存在的地方，機器學習就有價值”

2 模型評估與選擇

2.1 經驗誤差與過拟合

錯誤率

精度

誤差

訓練誤差

泛化誤差

過拟合：學習能力太強，除了訓練樣本中的“一般規律”學到了，連不太一般的特性也學到了

欠拟合：學習能力弱

欠拟合比較容易克服，例如在決策樹學習中擴充分支、在神經網絡學習中增加訓練輪數等；而過拟合則很麻煩，是機器學習面臨的關鍵障礙，是無法避免的，我們隻能“減緩”或者減少其風險

機器學習面臨的問題通常是NP困難甚至更難，有效的學習算法必然是在多項式時間内運作完成

實際中，不同算法甚至相同算法不同調參都産生不同模型，那麼使用哪個就是“模型選擇”問題

2.2 評估方法

測試集

測試誤差：用來當作泛化誤差的近似

留出法：一般要多次随機劃分重複實驗取均值，通常做法是2/3-4/5樣本用于訓練

p次k折交叉驗證法：常見的10次10折交叉驗證法

自助法：資料量少時候有用

調參

驗證集

2.3 性能度量

性能度量：對學習器的泛化性能評估

均方誤差：回歸任務最常用的性能度量

查準率precision

P=TP/(TP+FP)

查全率recall

R=TP/(TP+FN)

查準率-查全率曲線，即P-R曲線

如果一個學習器的P-R曲線被另一個學習器的P-R曲線包住，則斷定後者性能更好，如果有交叉，則難以斷定需要個性化權衡P和R，如果仍然比較優劣，合理的判斷是比較面積大小

平衡點，是查準率=查全率的取值，以此點比較學習器的優劣

F1度量：平衡點還是過于簡單，F1更常用

Fβ=（1+β2）*P*R/((β2*P)+R)

當β=1時候為标準的F1

F1=2*P*R/(P+R)

其中，β>0度量了查全率對查準率的相對重要性，β>1時，查全率更重要,β<1，查準率更重要

多次訓練/測試得出宏查準率、宏查全率、微查準率、微查全率

ROC曲線:受試者工作特征

縱軸：真正利率TPR=TP/(TP+FN)

橫軸：假正利率FPR=FP/(TN+FP)

某個學習器的ROC曲線被另一個學習器完全包住，則後者更優；弱有交叉，則判斷下方面積AUC

代價敏感錯誤率與代價曲線

非均等代價

代價矩陣

非均等代價情況下用代價曲線替換ROC曲線

2.4 比較檢驗

統計假設檢驗(hypothesis test)：假設檢驗、交叉驗證t檢驗、McNemar檢驗、Friedman檢驗與Nemenyi後續檢驗

2.5 方差與偏差

“偏差-方差分解”是解釋學習算法泛化性能的一種重要工具

3 線性模型

3.1 基本形式

易解釋，直覺表達各個屬性的重要性

3.2 線性回歸

均方誤差 or 平方損失 or 殘差：最小

最小二乘法：試圖找到一條直線，使得所有樣本到直線上的歐式距離最小

簡單回歸

多元線性回歸

待續

作者：九命貓幺

部落格出處：http://www.cnblogs.com/yongestcat/

歡迎轉載，轉載請标明出處。

如果你覺得本文還不錯，對你的學習帶來了些許幫助，請幫忙點選右下角的推薦

學習筆記_西瓜書（周志華機器學習）&&慕課視訊(機器學習by蔣良孝、胡成玉）（學習中。。。）

1 緒論

1.1 引言

1.2 基本術語

1.3 假設空間

1.4 歸納偏好

1.5 發展曆程

1.6 應用現狀

2 模型評估與選擇

2.1 經驗誤差與過拟合

2.2 評估方法

2.3 性能度量

2.4 比較檢驗

2.5 方差與偏差

3 線性模型

3.1 基本形式

3.2 線性回歸

待續

繼續閱讀

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

Apache 虛拟主機搭建過程

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

判斷浏覽器類型與版本以及ios安卓判别

學習筆記_西瓜書（周志華 機器學習）&amp;&amp;慕課視訊(機器學習by蔣良孝、胡成玉）（學習中。。。）

1 緒論

1.1 引言

1.2 基本術語

1.3 假設空間

1.4 歸納偏好

1.5 發展曆程

1.6 應用現狀

2 模型評估與選擇

2.1 經驗誤差與過拟合

2.2 評估方法

2.3 性能度量

2.4 比較檢驗

2.5 方差與偏差

3 線性模型

3.1 基本形式

3.2 線性回歸

待續

繼續閱讀

學習筆記_西瓜書（周志華機器學習）&&慕課視訊(機器學習by蔣良孝、胡成玉）（學習中。。。）