天天看點

吳恩達機器學習(一) 介紹

一、機器學習定義

  • Arthur Samuel定義(1959):機器學習是研究使得計算機無需顯示程式設計就能賦予計算機學習能力的學科。(Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.)
  • Tom Michell定義(1998):為完成任務T,計算機從經驗E中學習,并用性能P來度量,并通過經驗E來提高性能P。(A computer program is said to learnfrom experience E with respect to some task Tand some performance measure P, if itsperformance on T, as measured by P, improveswith experience E.)

舉個例子,我們需要将郵件自動分類為垃圾郵件(Spam)和正常郵件(Not Spam),此時任務T指的就是郵件分類這項工作,經驗E就是曆史郵件資料,這些資料包含了郵件内容并标明是否為垃圾郵件,性能P指的是正确分類的數量,越高越準确。

二、機器學習分類

機器學習主要分為監督學習(Supervised Learning)和無監督學習(Unsupervised Learning)。此外,還有強化學習(Reinforcement Learning)和推薦系統(Recommender Systems)。

1.監督學習(Supervised Learning)

在監督學習中,資料所對應正确答案已經給出。

對于回歸問題(Regression),給出資料的同時也給出的對應的值(正确答案)。例如房價預測,給出了房屋面積和價格,我們的任務是按照面積預測房價,此時給出的訓練資料包含了房屋面積和價格,這些價格就是正确答案。機器學習算法需要找到一條曲線(或直線)來拟合這些資料,進而得到一個模型,這個模型接受房屋面積作為輸入,根據模型輸出預測價格。回歸模型需要預測的資料是連續值。如圖:

吳恩達機器學習(一) 介紹

除了回歸問題,還有分類問題(Classfication)。例如,我們想要預測是否患乳腺癌,訓練集給出了腫塊大小與是否患癌的關系,這些是否患癌的資料稱為标簽(Tag)。分類問題的典型特征就是輸出為離散值(Discrete valued output)。算法輸出0表示未患癌,輸出1表示患癌。如圖:

吳恩達機器學習(一) 介紹

2.無監督學習(Unsupervised Learning)

對于監督學習,訓練集包含了資料(特征向量)和正确答案(标簽或值)。而無監督學習主要解決的問題是,當資料沒有給出對應的正确答案時,我們需要将其分組(或分類),稱為聚類(Clustering)。如下圖:

吳恩達機器學習(一) 介紹
吳恩達機器學習(一) 介紹

其應用範圍較廣,例如網絡上的新聞聚合,當程式搜尋到多條新聞,這些新聞很多是報道同一件事的,此時使用聚類算法就可以将這些新聞歸為一類,形成專題。例如報道華為的新聞通過聚類算法展示為一類。此外,其應用還有社交網絡分析(分析出哪些人有聯系并歸類)、市場劃分(根據客戶資料分為不同種類的客戶)。

除了聚類,還有雞尾酒會算法、PCA(Principal Component Analysis,主成分分析)等無監督學習算法。

轉載于:https://www.cnblogs.com/yayuanzi8/p/10971704.html