機器學習算法分類
根據資料集組成不同,可以把機器學習算法分為:
- 監督學習
- 無監督學習
- 半監督學習
- 強化學習
一、監督學習
定義:輸入資料是由輸入特征值和目标值所組成。
函數的輸出可以是一個連續的值(稱為回歸),或是輸出是有限個離散值(稱作分類)。
1、回歸問題
例如:預測房價,根據樣本集拟合出一條連續曲線。
2、分類問題
例如:根據惡性良性腫瘤特征判斷良性還是惡性,得到的是結果是“良性”或者“惡性”,是離散的。
二、無監督學習
定義:輸入資料是由輸入特征值組成,沒有目标值。
- 輸入資料沒有被标記,也沒有确定的結果。樣本資料類别未知;
- 需要根據樣本間的相似性對樣本集進行類别劃分。
有監督,無監督算法對比:
三、半監督學習
定義:訓練集同時包含有标記樣本資料和未标記樣本資料。
監督學習訓練方式:
半監督學習訓練方式:
四、強化學習
定義:實質是make decisions 問題,即自動進行決策,并且可以做連續決策。
舉例:
小孩想要走路,但在這之前,他需要先站起來,站起來之後還要保持平衡,接下來還要先邁出一條腿,是左腿還是右腿,邁出一步後還要邁出下一步。
小孩就是 agent,他試圖通過采取行動(即行走)來操縱環境(行走的表面),并且從一個狀态轉變到另一個狀态(即他走的每一步),當他完成任務的子任務(即走了幾步)時,孩子得到獎勵(給巧克力吃),并且當他不能走路時,就不會給巧克力。
主要包含五個元素:agent, action, reward, environment, observation;
強化學習的目标就是獲得最多的累計獎勵。
監督學習和強化學習的對比
監督學習 | 強化學習 | |
回報映射 | 輸出的是之間的關系,可以告訴算法什麼樣的輸入對應着什麼樣的輸出。 | 輸出的是給機器的回報 reward function,即用來判斷這個行為是好是壞。 |
回報時間 | 做了比較壞的選擇會立刻回報給算法。 | 結果回報有延時,有時候可能需要走了很多步以後才知道以前的某一步的選擇是好還是壞。 |
輸入特征 | 輸入是獨立同分布的。 | 面對的輸入總是在變化,每當算法做出一個行為,它影響下一次決策的輸入。 |