監督式機器學習
實際應用中的機器學習在大部分情況下我們都會使用監督式學習。
監督式學習指的是你擁有一個輸入變量和一個輸出變量,使用某種算法去學習從輸入到輸出的映射函數
這種學習方式就稱之為監督式學習,因為算法學習從訓練資料集學習的過程可以被看成類似于一名教師在監督學習學習的過程。我們已經知道了正确的答案,而算法不斷疊代來對訓練資料做出預測同時不斷被一名教師修正。當算法達到一個可接受程度的表現時學習過程停止。
監督式學習問題可以進一步被分為回歸和分類問題
- 分類:分類問題指的是當輸出變量屬于一個範疇,比如“紅色”和“藍色”或者“生病”和“未生病”。
- 回歸:回歸問題指的是輸出變量是一個實值,比如“價格”和“重量”
還有一些種類的問題建立在分類和回歸之上,包括推薦問題和時序預測
一些流形的監督式機器學習算法的例子:
回歸問題中的線性回歸
分類和回歸問題中的随機森林
分類問題中的支援向量機
非監督式機器學習
非監督式學習指的是我們隻擁有輸入變量但是沒有相關的輸出變量。
非監督式學習的目标是對資料中潛在的結構和分布模組化,以便對資料作更進一步的學習。
這種學習方式就稱為非監督式學習,因為其和監督式學習不同,對于學習并沒有确切的答案和學習過程也沒有教師監督。算法獨自運作以發現和表達資料中的有意思的結構。
非監督式學習問題可以進一步分為聚類問題和關聯問題
- 聚類問題:聚類學習問題指的是我們想在資料中發現内在的分組,比如以購買行為對顧客進行分組。
- 關聯問題:關聯問題學習問題指的是我們想發現資料的各部分之間的聯系和規則,例如購買X物品的顧客也喜歡購買Y物品。
一些流形的非監督式學習算法的例子:
- 聚類問題的k-means算法
- 關聯規則學習問題中的Apriori算法
半監督式機器學習
當我們擁有大部分的輸入資料但是隻有少部分的資料擁有标簽,這種情形稱為半監督式學習問題
半監督式學習問題介于監督式和非監督式學習之間。這裡有一個好例子如:照片分類,但是隻有部分照片帶有标簽(如,狗、貓和人),但是大部分照片都沒有标簽。
許多現實中的機器學習問題都可以歸納為這一類。因為對資料打标簽需要專業領域的知識,這是費時費力的。相反無标簽的資料和收集和存儲起來都是友善和便宜的。
我們可以使用非監督式學習的技術來發現和學習輸入變量的結構。
我們也可以使用監督式學習技術對無标簽的資料進行标簽的預測,把這些資料傳遞給監督式學習算法作為訓練資料,然後使用這個模型在新的資料上進行預測。
總結
從本文你可以了解到監督式,非監督式和半監督式學習的不同之處。你現在直到如下:
- 監督式學習:所有的資料都有标簽并且算法從輸入資料學習如何預測輸
- 非監督式學習:所有的資料都是無标簽的并且算法從輸入資料中學習資料固有的結構
- 半監督式學習:部分資料是有标簽的,但大部分沒有标簽,是一種監督式和非監督式學習的手段都可以使用的學習方法。