天天看點

神經網絡算法 - 一文搞懂回歸和分類

作者:人工智能學習

本文将從回歸和分類的本質、回歸和分類的原理、回歸和分類的算法三個方面,帶您一文搞懂回歸和分類 Regression And Classification 。

神經網絡算法 - 一文搞懂回歸和分類

回歸和分類

一、回歸和分類的本質

回歸和分類是機器學習中兩種基本的預測問題。它們的本質差別在于輸出的類型:回歸問題的輸出是連續的數值,分類問題的輸出是有限的、離散的類别标簽。

回歸(Regression)的本質:回歸的本質是尋找自變量和因變量之間的關系,以便能夠預測新的、未知的資料點的輸出值。例如,根據房屋的面積、位置等特征預測其價格。

神經網絡算法 - 一文搞懂回歸和分類

回歸的本質

  • 自變量個數:
  • 一進制回歸:隻涉及一個自變量和一個因變量的回歸分析。
  • 多元回歸:涉及兩個或更多個自變量和一個因變量的回歸分析。
  • 自變量與因變量的關系:
  • 線性回歸:自變量與因變量之間的關系被假定為線性的,即因變量是自變量的線性組合。
  • 非線性回歸:自變量與因變量之間的關系是非線性的,這通常需要通過非線性模型來描述。
  • 因變量個數:
  • 簡單回歸:隻有一個因變量的回歸分析,無論自變量的數量如何。
  • 多重回歸:涉及多個因變量的回歸分析。在這種情況下,模型試圖同時預測多個因變量的值。

分類(Classification)的本質:分類的本質是根據輸入資料的特征将其劃分到預定義的類别中。例如,根據圖檔的内容判斷其所屬的類别(貓、狗、花等)。

神經網絡算法 - 一文搞懂回歸和分類

分類的本質

  • 二分類(Binary Classification):表示分類任務中有兩個類别。在二分類中,我們通常使用一些常見的算法來進行分類,如邏輯回歸、支援向量機等。例如,我們想要識别一幅圖檔是不是貓,這就是一個二分類問題,因為答案隻有是或不是兩種可能。
  • 多分類(Multi-Class Classification):表示分類任務中有多個類别。多分類是假設每個樣本都被設定了一個且僅有一個标簽:一個水果可以是蘋果或者梨,但是同時不可能是兩者。在多分類中,我們可以使用一些常見的算法來進行分類,如決策樹、随機森林等。例如,對一堆水果圖檔進行分類,它們可能是橘子、蘋果、梨等,這就是一個多分類問題。
  • 多标簽分類(Multi-Label Classification):給每個樣本一系列的目标标簽,可以想象成一個資料點的各屬性不是互相排斥的。多标簽分類的方法分為兩種,一種是将問題轉化為傳統的分類問題,二是調整現有的算法來适應多标簽的分類。例如,一個文本可能被同時認為是宗教、政治、金融或者教育相關話題,這就是一個多标簽分類問題,因為一個文本可以同時有多個标簽。

二、回歸和分類的原理

神經網絡算法 - 一文搞懂回歸和分類

線性回歸 VS 邏輯回歸

回歸(Regression)的原理:通過建立自變量和因變量之間的數學模型來探究它們之間的關系。

線性回歸

線性回歸(Linear Regression):求解權重(w)和偏置(b)的主要步驟。

神經網絡算法 - 一文搞懂回歸和分類

求解權重(w)和偏置(b)

  • 初始化權重和偏置:為權重w和偏置b選擇初始值,并準備訓練資料X和标簽y。
  • 定義損失函數:選擇一個損失函數(如均方誤差)來衡量模型預測與實際值之間的差距。
  • 應用梯度下降算法:使用梯度下降算法疊代更新w和b,以最小化損失函數,直到滿足停止條件。
神經網絡算法 - 一文搞懂回歸和分類

梯度下降算法疊代更新w和b

  • 擷取并驗證最終參數:當算法收斂時,得到最終的w和b,并在驗證集上檢查模型性能。
  • 建構最終模型:使用最終的w和b建構線性回歸模型,用于新資料預測。
神經網絡算法 - 一文搞懂回歸和分類

新資料預測

分類(Classification)的原理:根據事物或概念的共同特征将其劃分為同一類别,而将具有不同特征的事物或概念劃分為不同類别。

神經網絡算法 - 一文搞懂回歸和分類

邏輯回歸

邏輯回歸(Logistic Regression):通過sigmoid函數将線性回歸結果映射為機率的二分類算法。

  • 特征工程:轉換和增強原始特征以更好地表示問題。
  • 模型建立:建構邏輯回歸模型,使用sigmoid函數将線性組合映射為機率。
  • 模型訓練:通過優化算法(如梯度下降)最小化損失函數來訓練模型。
  • 模型評估:使用驗證集或測試集評估模型的性能。
  • 預測:應用訓練好的模型對新資料進行分類預測。
神經網絡算法 - 一文搞懂回歸和分類

貓狗識别

三、回歸和分類的算法

回歸(Regression)的算法:主要用于預測數值型資料。

  1. 線性回歸(Linear Regression):這是最基本和常見的回歸算法,它假設因變量和自變量之間存線上性關系,并通過最小化預測值和實際值之間的平方誤差來拟合資料。
  2. 多項式回歸(Polynomial Regression):當自變量和因變量之間的關系是非線性時,可以使用多項式回歸。它通過引入自變量的高次項來拟合資料,進而捕捉非線性關系。
  3. 決策樹回歸(Decision Tree Regression):決策樹回歸是一種基于樹結構的回歸方法,它通過建構決策樹來劃分資料空間,并在每個葉節點上拟合一個簡單的模型(如常數或線性模型)。決策樹回歸易于了解和解釋,能夠處理非線性關系,并且對特征選擇不敏感。
  4. 随機森林回歸(Random Forest Regression):随機森林回歸是一種內建學習方法,它通過建構多個決策樹并将它們的預測結果組合起來來提高回歸性能。随機森林回歸能夠處理高維資料和非線性關系,并且對噪聲和異常值具有一定的魯棒性。

分類(Classification)的算法:主要用于發現類别規則并預測新資料的類别。

  • 邏輯回歸(Logistic Regression):盡管名字中有“回歸”,但實際上邏輯回歸是一種分類算法,常用于二分類問題。它通過邏輯函數将線性回歸的輸出映射到(0,1)之間,得到樣本點屬于某一類别的機率。在回歸問題中,有時也使用邏輯回歸來處理因變量是二進制的情況,此時可以将問題看作是對機率的回歸。
  • 支援向量機(SVM):支援向量機是一種基于統計學習理論的分類算法。它通過尋找一個超平面來最大化不同類别之間的間隔,進而實作分類。SVM在高維空間和有限樣本情況下表現出色,并且對于非線性問題也可以使用核函數進行擴充。
  • K最近鄰(KNN):K最近鄰是一種基于執行個體的學習算法,它根據輸入樣本的K個最近鄰樣本的類别來确定輸入樣本的類别。KNN算法簡單且無需訓練階段,但在處理大規模資料集時可能效率較低。
  • 樸素貝葉斯分類器:樸素貝葉斯是一種基于貝葉斯定理的分類算法,它假設特征之間互相獨立(即樸素假設)。盡管這個假設在實際應用中往往不成立,但樸素貝葉斯分類器在許多領域仍然表現出色,尤其是在文本分類和垃圾郵件過濾等方面。

免費分享一些我整理的人工智能學習資料給大家,整理了很久,非常全面。包括人工智能基礎入門視訊+AI常用架構實戰視訊、機器學習、深度學習與神經網絡等視訊、課件源碼、畢設項目、AI熱門論文等。

下面是截圖,掃碼進群免費領取:掃碼進群領資料
神經網絡算法 - 一文搞懂回歸和分類

我會在群裡與朋友們定期分享人工智能的發展就業情況與相關資料。

最後祝大家天天進步!!

繼續閱讀