天天看點

機器學習基礎:分類vs回歸

經常看到這樣的問題:“如何計算回歸問題的準确度?”像這樣的問題反映了沒有真正了解分類和回歸之間的差別,以及測量的準确度是什麼。

這是分類和回歸問題之間的一個重要差別。從根本上說,分類就是預測一個标簽,而回歸則是預測一個數量。

在本文中,你将發現分類和回歸之間的差別。

看完文章後,你将會知道:

預測模型是關于從輸入到輸出學習映射函數的問題,稱為函數逼近。

分類是預測離散類标簽輸出的問題。

回歸是預測連續數量輸出的問題。

讓我們開始吧。

本文分為5部分,它們是:

函數逼近

分類

回歸

分類與回歸

分類與回歸問題之間的轉換

預測模組化是用曆史資料來建立一個模型來預測新資料,針對我們沒有答案的問題。

有關預測模組化的更多資訊,請參見:

<a href="https://machinelearningmastery.com/gentle-introduction-to-predictive-modeling/" target="_blank">簡要介紹預測模組化</a>

預測模組化可以描述為從輸入變量(x)到輸出變量(y)逼近映射函數(f)的數學問題。這稱為函數逼近問題。

模組化算法的工作是在我們可以提供可用的時間和資源的情況下,找到最好的映射函數。

有關應用機器學習中的逼近函數的更多資訊,請參見:

<a href="https://machinelearningmastery.com/how-machine-learning-algorithms-work/" target="_blank">機器學習算法如何工作</a>

一般來說,我們可以把所有函數逼近任務劃分為分類任務和回歸任務。

分類預測模組化是将映射函數(f)從輸入變量(x)逼近到離散輸出變量(y)的任務。

輸出變量通常稱為标簽或類别。映射函數預測給定觀測值的類或類别。

例如,文本電子郵件可以分為兩類:“垃圾郵件”和“非垃圾郵件”。

分類問題要求将執行個體分為兩個或多個類中的一個。

分類可以有實值或離散的輸入變量。

兩類問題通常被稱為二類或二進制分類問題。

多于兩個類别的問題通常被稱為多類别分類問題。

一個例子被指派多個類的問題被稱為多标簽分類問題。

分類模型通常将連續值預測為屬于每個輸出類别的給定示例的機率。 機率可以被解釋為屬于每個類别的給定例子的可能性或置信度。 可以通過選擇具有最高機率的類别标簽将預測機率轉換為類别值。

例如,特定的文本電子郵件可能被指定為“垃圾郵件”的機率為0.1,“非垃圾郵件”的機率為0.9。 通過選擇“非垃圾郵件”标簽,我們可以将這些機率轉換為類标簽,因為它具有最高的預測可能性。

評估分類預測模型的技巧有很多種方法,但最常見的方法是計算分類準确度。

分類準确率是所有預測中正确分類的百分比。

例如,如果一個分類預測模型做了5個預測,其中3個是正确的,2個是不正确的,那麼基于這些預測的模型的分類準确性将是:

能夠學習分類預測模型的算法被稱為分類算法。

回歸預測模組化是将輸入變量(X)映射到連續輸出變量(y)的映射函數(f)的任務。

連續輸出變量是一個實數值,例如整數或浮點值。 這些往往是數量,如金額和大小。

例如,一所房子可能會以特定的美元價值出售,可能在$ 100,000到$ 200,000的範圍内。

回歸問題需要預測數量。

回歸可以具有實值或離散的輸入變量。

多輸入變量的問題通常稱為多元回歸問題。

輸入變量按時間排序的回歸問題稱為時間序列預測問題。

由于回歸預測模型預測一個數量,是以該模型的技巧必須作為這些預測中的一個誤差來報告。

估計回歸預測模型的技巧有許多方法,但最常見的可能是計算均方根誤差,縮寫為首字母縮略詞是RMSE。

例如,如果一個回歸預測模型做了2個預測,其中1.5的期望值是1.0,另一個是3.3,期望值是3.0,那麼RMSE是:

RMSE的一個優點是錯誤分數的機關與預測值的機關相同。

能夠學習回歸預測模型的算法被稱為回歸算法。

一些算法的名稱中包含“回歸”這個詞,如線性回歸和邏輯回歸,因為線性回歸是一種回歸算法,而邏輯回歸是一種分類算法,這令人感到困惑。

分類預測模組化問題不同于回歸預測模組化問題。

分類是預測離散類标簽的任務。

回歸是預測連續數量的任務。

分類和回歸算法之間有一些重疊,例如:

分類算法可以預測連續值,但是連續值是以類标簽的機率的形式。

回歸算法可以預測離散值,但離散值以整數形式表示。

一些算法可用于分類和回歸的小修改,例如決策樹和人工神經網絡。有些算法不能或不能很容易地用于這兩種問題類型,例如用于回歸預測模組化的線性回歸和用于分類預測模組化的邏輯回歸。

重要的是,我們評估分類和回歸預測的方法各不相同,也不重疊:

分類預測可以使用準确性進行評估,而回歸預測則不能。

回歸預測可以使用均方根誤差進行評估,而分類預測則不能。

在某些情況下,将回歸問題轉換為分類問題是可能的。例如,要預測的數量可以轉換成離散的量。

例如,連續0至100美元之間的金額可以轉換成2個量:

第0類:0至49美元

第1類:50至100美元

這通常被稱為離散化,産生的輸出變量是一種分類,其中标簽有一個有序的關系(稱為序數)。

在某些情況下,分類問題可以轉化為回歸問題。 例如,标簽可以被轉換成連續的範圍。

有些算法通過預測每一個類的機率,進而依次縮放到特定的範圍:

另外,可以将類值排序并映射到連續範圍:

0到49美元為第1類

50到100美元為第二類

如果分類問題中的類别标簽不具有自然的序數關系,則從分類到回歸的轉換可能會導緻令人驚訝或糟糕的性能,因為該模型可能會從輸入到連續輸出範圍學習錯誤或不存在的映射。

如果你想深入了解,本節将提供更多有關該主題的資源。

在本教程中,你了解了分類和回歸問題之間的差別。

具體來說,你了解到:

預測模組化是關于從輸入到輸出學習映射函數的問題,稱為函數逼近。

作者資訊

Dr. Jason Brownlee 是一名機器學習從業者,學術研究人員,緻力于幫助開發人員從入門到精通機器學習。

文章原标題《Difference Between Classification and Regression in Machine Learning》

作者:Dr.Jason Brownlee 譯者:董昭男 稽核:海棠

繼續閱讀