天天看點

台大機器學習基石 Lecture 16 - Three Learning PrinciplesOccam's RazorSampling BiasData SnoopingPower of Three

本次Lecture介紹了機器學習中比較常用的三個“錦囊妙計”。

Occam's Razor

奧卡姆剃刀定律(Occam’s Razor),總結而言就是“如無必要,勿增實體”,要用盡可能簡單且有好效果的方法來處理資料。

那麼就有兩個問題:

  • 什麼樣的模型是“簡單的”?簡單的模型一方面指hypothesis比較簡單,也就是模型的參數比較少;另一方面指模型的hypotheses有限不太多。這兩者是有關聯的,因為這兩者是由指數關系限制的,當有
    台大機器學習基石 Lecture 16 - Three Learning PrinciplesOccam's RazorSampling BiasData SnoopingPower of Three
    個特征的時候,hypothesis的個數就是
    台大機器學習基石 Lecture 16 - Three Learning PrinciplesOccam's RazorSampling BiasData SnoopingPower of Three
    。于是可以一開始就選擇簡單的model,或者用regularization讓hypothesis中參數個數減少,降低模型複雜度。
  • 為什麼簡單的模型表現更好?假設資料是雜亂無規律的,那麼大多數情況是做不到正确分類的,采用很複雜的模型當然能分類成功,但是其泛化能力并不好,而如果用很容易的模型分類效果很好,說明資料本身應該是具有一定規律性的。也就是說,對于一個複雜模型能夠分類,并不能保證資料的規律性存在,而簡單模型下的良好表現就更展現顯著性。

Sampling Bias

當抽樣樣本有偏差時,學習的結果也會産生偏差,這就是sampling bias抽樣偏差,用一句話表示就是“If the data is sampled in a biased way, learning will produce a similarly biased outcome.”

也就是,訓練資料和驗證資料要服從同一個分布,最好都是獨立同分布的,讓兩個環境盡可能接近,這樣才會有好結果。

Data Snooping

在進行模型選擇的時候一定要避免“偷窺”資料,這樣會使我們人為地傾向于某種模型,而不是從自由選擇

台大機器學習基石 Lecture 16 - Three Learning PrinciplesOccam's RazorSampling BiasData SnoopingPower of Three

,這會讓判斷産生錯誤。而“偷窺”的情況并不僅指直接看到原始資料,在使用這些資料或相關統計量等時就已經間接偷看到了資料,依此進行決策的時候就增加了許多模型複雜度,引入了污染。

在學術研究中,對于一個基準資料集D,某個人建立了模型H1,發表了論文,之後的每個人都根據前人的論文模型來建立新的模型。這樣其實在後面人選擇模型的時候已經被前人模型所影響了,根據前人的模型而避開了很多錯誤,這也是偷窺資料的一種情況。這樣可能會造成overfitting或bad generalization。

避免“偷窺資料”很重要,但這卻是很難避免的,下面兩個方法可以幫助我們盡量避免:

  • Be blind:在選擇模型的時候盡量用自己的經驗和知識來選擇,而不是通過資料來做決定,先定模型再看資料。
  • Be suspicious:讀論文和成果時都要謹慎和懷疑,自己做研究的時候也要有懷疑。

Power of Three

這小節是對整節課的總結:

  • Data Mining、AI、Statistics
  • Hoeffding、Multi-Bin Hoeffding、VC
  • PLA/pocket、linear regression、logistic regression
  • Feature Transform、Regularization、Validation
  • Occam’s Razer、Sampling Bias、Data Snooping