感覺未來是大資料環境下的人工智能時代呀,不能被時代的馬車抛棄,西瓜書這麼出名,簡要了解一下
1 緒論
1.1 引言
機器學習定義:利用經驗來改善計算機系統自身的性能
另外一種廣泛被引用的英文定義:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E(T:任務,P:性能評估,E:資料,一段程式利用E提升了在T上的P那麼就稱之為機器學習)
機器學習的主要内容即在資料中産生模型的算法
機器學習的核心即學習算法
機器學習動機:為了讓計算機系統具有人的學習能力以便實作人工智能
機器學習技術:神經網絡學習、決策樹學習、貝葉斯學習、最近鄰學習、線性學習、支援向量機學習等等
經驗在計算機中的表現為資料,那麼使得機器學習成為智能分析技術的創新源之一,并且是以受到越多關注
經常和另外一種智能分析技術-資料挖掘來對比
資料挖掘:識别出巨量資料中有效的、新穎的、潛在有用的、最終可了解的模式的非平凡過程
資料挖掘可以視為機器學習與資料庫的交叉,主要利用機器學習界提供的技術來分析海量資料,利用資料庫界的技術來管理海量資料
機器學習和資料挖掘既有差別又有聯系,機器學習偏理論,資料挖掘偏應用
1.2 基本術語
資料集(dataset):類比資料庫概念中的table
示例(instance) or 樣本(sample):類比資料庫中table中的row即一行記錄或稱之為元組,在空間中也可以描述為特征向量(feature vector)
屬性(attr) or 特征(feature):類比資料庫中的col即列,空間中也叫做維數(dimensionality)
屬性空間、樣本空間、輸入空間:屬性值的取值集合
學習或者訓練:從資料中産生模型的過程
訓練資料
訓練樣本
訓練集
标記(lable):關于示例結果的資訊
樣例(example):擁有了标記資訊的示例
标記空間(lable space) or 輸出空間:所有标記的集合
分類(classification):預測的是離散值
回歸(regression):預測的連續值
聚類(clustering)
二分類:預測值隻有兩個,一個叫正類,一個叫反類
多分類:預測值多于2
測試:學得模型後,利用模型預測的過程
有監督學習:資料集有标記(分類和回歸算法屬于此)
無監督學習:資料集沒有标記(聚類算法屬于此)
泛化(generalization):學得的模型适用于新樣本的能力
1.3 假設空間
歸納(induction):特殊到一般,泛化過程(generalization)
演繹(deduction):一般到特殊(specilization)
概念學習、布爾概念學習:研究、應用較少,因為學得語義明确泛化性能好的概念太難了
機械學習
樣本噪聲
學習:在假設空間進行搜尋的過程
假設集合、假設空間、版本空間
1.4 歸納偏好
“奧卡姆剃刀”:若有多個假設與觀察一緻,則選擇最簡單的那個
算法的歸納偏好是否與問題本身比對,大多數時候直接決定了算法能否取得好的性能
“沒有免費午餐”定理,即NFL定理:在脫離實際意義情況下,空泛地談論哪種算法好毫無意義,要談論算法優劣必須針對具體學習問題
1.5 發展曆程
機器學習是人工智能研究發展到一定階段的必然産物

1.6 應用現狀
應用廣泛
“隻要有資料存在的地方,機器學習就有價值”
2 模型評估與選擇
2.1 經驗誤差與過拟合
錯誤率
精度
誤差
訓練誤差
泛化誤差
過拟合:學習能力太強,除了訓練樣本中的“一般規律”學到了,連不太一般的特性也學到了
欠拟合:學習能力弱
欠拟合比較容易克服,例如在決策樹學習中擴充分支、在神經網絡學習中增加訓練輪數等;而過拟合則很麻煩,是機器學習面臨的關鍵障礙,是無法避免的,我們隻能“減緩”或者減少其風險
機器學習面臨的問題通常是NP困難甚至更難,有效的學習算法必然是在多項式時間内運作完成
實際中,不同算法甚至相同算法不同調參都産生不同模型,那麼使用哪個就是“模型選擇”問題
2.2 評估方法
測試集
測試誤差:用來當作泛化誤差的近似
留出法:一般要多次随機劃分重複實驗取均值,通常做法是2/3-4/5樣本用于訓練
p次k折交叉驗證法:常見的10次10折交叉驗證法
自助法:資料量少時候有用
調參
驗證集
2.3 性能度量
性能度量:對學習器的泛化性能評估
均方誤差:回歸任務最常用的性能度量
查準率precision
P=TP/(TP+FP)
查全率recall
R=TP/(TP+FN)
查準率-查全率曲線,即P-R曲線
如果一個學習器的P-R曲線被另一個學習器的P-R曲線包住,則斷定後者性能更好,如果有交叉,則難以斷定需要個性化權衡P和R,如果仍然比較優劣,合理的判斷是比較面積大小
平衡點,是查準率=查全率的取值,以此點比較學習器的優劣
F1度量:平衡點還是過于簡單,F1更常用
Fβ=(1+β2)*P*R/((β2*P)+R)
當β=1時候為标準的F1
F1=2*P*R/(P+R)
其中,β>0度量了查全率對查準率的相對重要性,β>1時,查全率更重要,β<1,查準率更重要
多次訓練/測試得出宏查準率、宏查全率、微查準率、微查全率
ROC曲線:受試者工作特征
縱軸:真正利率TPR=TP/(TP+FN)
橫軸:假正利率FPR=FP/(TN+FP)
某個學習器的ROC曲線被另一個學習器完全包住,則後者更優;弱有交叉,則判斷下方面積AUC
代價敏感錯誤率與代價曲線
非均等代價
代價矩陣
非均等代價情況下用代價曲線替換ROC曲線
2.4 比較檢驗
統計假設檢驗(hypothesis test):假設檢驗、交叉驗證t檢驗、McNemar檢驗、Friedman檢驗與Nemenyi後續檢驗
2.5 方差與偏差
“偏差-方差分解”是解釋學習算法泛化性能的一種重要工具
3 線性模型
3.1 基本形式
易解釋,直覺表達各個屬性的重要性
3.2 線性回歸
均方誤差 or 平方損失 or 殘差:最小
最小二乘法:試圖找到一條直線,使得所有樣本到直線上的歐式距離最小
簡單回歸
多元線性回歸
待續
作者:九命貓幺
部落格出處:http://www.cnblogs.com/yongestcat/
歡迎轉載,轉載請标明出處。
如果你覺得本文還不錯,對你的學習帶來了些許幫助,請幫忙點選右下角的推薦