天天看點

機器學習的原理

機器學習第二問 --- 機器是如何學習的?(How can machine learn?)

簡單來說,機器學習是這樣的一個過程:輸入我們收集的訓練資料,通過學習算法檢驗所有可能的假設(假設用函數表示),找到一個最近似于真實規律的假設。如下圖所示:

機器學習的原理
 一些術語:

  • 特征(Feature):x∈X,輸入的一些描述
  • 目标(Target):y∈Y,特征所對應的分類或值,比如說某個惡性良性腫瘤是良性的還是惡性的,或者某個房子可以賣多少錢
  • 真實的目标函數(True Target Function):f: X→Y,特征和目标之間的真實規律,用函數表示
  • 訓練資料(Training Data):D={(x1,y1),(x2,y2),…,(xn,yn)},是之前積累的記錄,在現實生活中,訓練資料是有噪聲的,比如說記錄錯誤,缺失值,測量誤差等
  • 假設集(Hypothesis Set):h∈H,所有可能表示特征和目标之間規律的函數
  • 學習到的函數(Learned Formula):g: X→Y,機器從訓練資料中學到的規律,用函數表示,我們期望學到的g表現足夠好,即g≈f
  • 機器學習算法(Learning Algorithm):A,由D産生g的算法,A會從各種不同假設h構成的集合H中挑選出一個最好的g,使得g≈f