天天看點

《實用機器學習》——1.2 機器學習算法的分類

本節書摘來異步社群《實用機器學習》一書中的第1章,第1.2節,作者:孫亮,黃倩,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

在機器學習中,常用的算法可以分為監督型學習(supervised learning)和非監督型學習(unsupervised learning)①。

在監督型學習中,除了輸入資料x外,我們還知道對應的輸出y。我們的目标是建構一個函數f(x),使得f(x)能夠預測輸出y。

在非監督型學習中,我們隻有輸入資料x,沒有對應的輸出y。我們的目标是從資料中學習資料本身存在的模式(pattern)。例如,聚類分析(cluster analysis)就是一個非監督型學習的典型例子,它通過分析樣本之間的相似度來将樣本劃分為幾個不同的聚類。

在監督型學習中,輸出y一般稱為目标變量(target variable)或者因變量(dependent variable),而輸入x稱為解釋變量(explanatory variable)或者自變量(independent variable)。

在實際中,在條件允許的情況下,我們偏好監督型學習。因為我們知道相應的目标變量的值,是以能夠更加準确地構模組化型,取得更好的效果。對于非監督型學習,在實際中,我們可以直接将其結果作為輸出,但更多地是将其結果作為新的特征,再應用到監督型學習的算法中。例如,對于一組資料,可以先使用k均值算法對資料進行聚類分析,然後将聚類分析的結果作為新的特征。本書将主要讨論監督型學習。

在監督型學習中,一般将整個資料集分為訓練集(training set)和測試集(test set)。利用訓練集中的資料,可以建構相應的模型(model)或者學習器(learner)。利用測試集,可以估計所構模組化型的性能高低。在資料集中,我們使用樣本(sample)、資料點(data point)或執行個體(instance)來稱呼其中的每個點。監督型學習可以進一步分為回歸問題、分類問題等。我們将在1.3節利用具體的例子來介紹監督型學習。

繼續閱讀