天天看點

機器學習中監督學習與無監督學習——有什麼差別?

作者:秋葉Motivation

在機器學習領域,有兩種方法:監督學習和無監督學習。這完全取決于您的資料是否被标記。标簽決定了模型的訓練方式,并影響我們從中收集見解的方式。

在本文中,我們将探讨監督學習和無監督學習的概念,并強調它們的主要差別。

機器學習中的學習類型

(更|多優質内|容:java567 點 c0m)

監督學習:以标記資料為指導

監督學習就像你身邊有一位樂于助人的老師。在這種方法中,我們對資料進行了标記,這意味着每條資料都帶有特殊的标簽或标簽。

可以把它想象成在大考試之前找到問題的答案。您可以從這些帶标簽的示例中學習,并對新的、未見過的資料進行預測或分類。

監督學習圍繞标記資料的使用,其中每個資料點都與已知的标簽或結果相關聯。通過利用這些标簽,模型學習對看不見的資料進行準确的預測或分類。

監督學習的一個典型例子是電子郵件垃圾郵件檢測模型。在這裡,模型在資料集上進行訓練,其中每封電子郵件都被标記為“垃圾郵件”或“非垃圾郵件”。通過從這些标記的示例中學習,該模型可以概括其知識并準确地将傳入電子郵件分類為垃圾郵件或合法郵件。

監督學習的另一個例子是手寫識别模型。通過向模型提供手寫數字及其相應标簽的資料集,模型可以學習與每個數字相關的模式和變化。是以,它能夠熟練地識别新的、看不見的樣本中的手寫數字。

分類标簽和連續标簽

當目标變量屬于有限數量的不同類别或類時,使用分類标簽。這些标簽也稱為名義标簽或離散标簽。

讓我們分解一些術語以使其更容易了解。分類标簽具有一組離散的可能值,例如“是一頭牛”或“不是一頭牛”。這就像說某件事隻能是一件事或另一件事。

離散是一個取自統計學的術語,指的是隻能采用有限數量的值的結果,例如一周中的幾天。這就像可供選擇的選項數量有限。

當目标變量表示連續或實值數量時,使用連續标簽,也稱為數字标簽。這些标簽可以采用一定範圍内的任何數值。

這意味着連續标簽沒有一組離散的可能值。可以有無限多種可能性。将其視為滑動尺度而不是嚴格的類别。

值得注意的是,标簽的類型決定了您正在處理的機器學習問題的類型。

分類标簽與分類問題相關,其目标是将類别或類配置設定給給定的輸入。

連續标簽與回歸問題相關,其目标是預測連續值。

但也存在涉及分類标簽和連續标簽的混合問題,例如多标簽分類或多輸出回歸。

監督學習算法

以下是您應該了解的一些很棒的監督學習技術:

線性回歸

線性回歸是機器學習中的一項基本技術,用于對因變量與一個或多個自變量之間的關系進行模組化。它的目的是找到代表變量之間線性關系的最佳拟合直線。

想象一下圖表上有一堆點。每個點都有兩個值:一個在 x 軸上,一個在 y 軸上。例如,假設我們有代表不同學生的學習小時數 (x) 和相應的考試成績 (y) 的變量。

線性回歸是一種繪制最能代表這兩個變量之間總體趨勢或關系的直線的方法。我們想要找到一條盡可能接近所有點的線。

顯示線性回歸的圖表圖像

線性回歸用于許多現實世界的情況。例如,根據面積、房間數量和位置等因素預測房價。

房子和指南針的圖像

邏輯回歸

當目标變量是二進制或分類變量時,采用邏輯回歸。它預測執行個體屬于特定類别的機率。它通常用于情感分析或垃圾郵件檢測等任務。

為了了解邏輯回歸,我們假設我們有一個包含一些特征和相應标簽的資料集。例如,我們可能有關于學生的資訊,例如他們的學習時間以及他們是否通過或未通過考試。

在邏輯回歸中,我們感興趣的是預測二進制結果,例如“通過”或“失敗”。目标是找到輸入特征(例如,學習時間)和結果機率(例如,通過考試的機率)之間的關系。

邏輯回歸不像線性回歸那樣使用直線,而是使用一種稱為 sigmoid 或邏輯函數的特殊曲線。該曲線的範圍在 0 和 1 之間,并且具有特征性的 S 形形狀。它将任何輸入值映射到 0 到 1 之間的機率值。

顯示邏輯回歸的圖表圖像

決策樹

決策樹是幫助根據一組條件做出決策或預測的圖形結構。他們将資料分成多個分支,每個分支代表一個決策或結果。決策樹廣泛用于分類任務,可以處理分類資料和連續資料。

決策樹從一個節點開始,稱為根節點,代表整個資料集。樹的每個内部節點代表基于特定特征的決策,每個分支代表該決策的可能結果。樹的葉子代表最終的預測或結果。

決策樹的插圖

想象一下,您是一名試圖解開謎團的偵探,并且您有一系列線索或特征需要考慮。每條線索都可以成為幫助您确定嫌疑人有罪或無罪的證據。

決策樹就像一組問題,引導您完成調查過程,幫助您根據線索做出決策。

例如,假設您有以下線索:

  • 線索一:犯罪現場有武器嗎?
  • 線索二:犯罪嫌疑人是否有作案動機?
  • 線索3:有目擊者的叙述嗎?

從根本問題開始,您會問犯罪現場是否有武器。如果答案是“是”,您将遵循決策樹的一個分支。如果答案是“否”,您将遵循不同的分支。

讓我們考慮“是”分支:

  • 如果犯罪現場有武器,你就會轉向下一個問題:嫌疑人是否有動機?根據答案,您将遵循相應的分支。
  • 如果嫌疑人有動機,你就繼續下一個問題:有目擊者的證詞嗎?同樣,您根據答案遵循适當的分支。

每個問題或線索都可以幫助您縮小可能性并在每一步中做出決定。最終,您到達一個葉節點,它代表您的最終決定或預測。

例如,如果您在犯罪現場發現武器,嫌疑人有動機,并且有目擊者證詞,那麼決策樹可能會引導您得出嫌疑人有罪的結論。另一方面,如果任何線索指向相反的方向,決策樹可能會引導您得出嫌疑人無罪的結論。

在這個偵探類比中,決策樹充當邏輯流程圖,幫助您根據可用的證據或特征做出決策。

類似地,在機器學習中,決策樹使用輸入特征根據一組分層的 if-else 條件進行預測或分類。

Start
                |
          Is there a weapon at the crime scene?
                |
         /                  \
        /                    \
   Yes /                      \ No
      /                        \
     |                 Did the suspect have a motive?
     |                      |
    Yes                    No
     |                      |
     |                 Are there any eyewitness accounts?
     |                      |
     |                       \
    Yes                       No
     |                        |
    Guilty                 Not Guilty           

無監督學習:從未标記資料中提取隐藏模式

現在,準備好釋放你内心的福爾摩斯吧,因為無監督學習就是揭開資料中隐藏的秘密。

在這種方法中,我們事先沒有任何标簽或答案。這就像面對一個謎題并試圖自己找出其中的模式。

無監督學習處理未标記的資料,不提供預先存在的标簽或結果。在這種方法中,目标是發現資料本身固有的隐藏模式或結構。

例如,聚類是一種流行的無監督學習技術,用于識别資料中的自然分組。

想象一下,您有一個包含各種客戶屬性(例如年齡、收入和購買行為)的資料集。通過對這些資料應用聚類算法,您可以根據相似性來識别不同的客戶群。然後,這些資訊可用于定制營銷政策或針對每個細分市場提供個性化建議。

無監督學習的另一個引人注目的應用是異常檢測。在網絡安全中,無監督算法可以分析網絡流量模式并識别偏離常态的異常或可疑活動。通過檢測異常,可以先發制人地解決潛在的安全漏洞或網絡攻擊。

無監督學習算法

無監督學習算法可以分為兩類問題:

無監督學習算法的類型:聚類和關聯

聚類

一種流行的無監督學習技術是聚類。聚類就像一種超能力,可以幫助我們确定資料中是否存在任何自然發生的分組。這就像在不知道名字的情況下找到有相似興趣的朋友一樣。

通過聚類,您可以将相似的資料點分組在一起,并發現資料中有意義的模式或結構。

有多種可用的聚類算法,例如 k-means、層次聚類和 DBSCAN。這些算法的方法有所不同,但總體思路是測量資料點之間的距離或相似性并将它們配置設定給聚類。聚類的數量可以預先定義(k-means)或自動确定(分層聚類)。

聚類有許多應用,包括客戶細分、圖像識别、文檔聚類、異常檢測和推薦系統。

協會

關聯是無監督學習中的另一種技術,專注于發現資料集中不同項目或變量之間有趣的關系或關聯。它的目的是識别資料中經常一起出現的模式。

最著名的關聯規則挖掘算法是 Apriori。給定一個交易資料集,Apriori 會找到經常一起出現的項目集,并從中導出關聯規則。

關聯規則由前件(或左側)和後件(或右側)組成,訓示某些項目的存在暗示其他項目的存在。

例如,在購物籃分析中,可以導出關聯規則來識别經常一起購買的商品。這些規則有助于提出建議、優化商店布局或了解客戶行為。

關聯分析還可以擴充到更複雜的場景,例如順序模式,其中項目出現的順序很重要。

聚類和關聯都是無監督學習技術,有助于在不依賴預定義标簽或類的情況下探索和分析資料。它們在模式發現、資料探索以及從未标記的資料集中擷取見解方面發揮着至關重要的作用。

結論

監督學習和無監督學習代表了機器學習領域的兩種不同方法,其中标簽的存在或不存在是一個決定性因素。

監督學習利用标記資料的力量來訓練可以做出準确預測或分類的模型。

相比之下,無監督學習側重于使用聚類或異常檢測等技術來發現未标記資料中隐藏的模式和結構。

無論您是在監督學習中使用标記資料(例如電子郵件垃圾郵件檢測或手寫識别),還是在客戶細分或異常檢測中探索無監督學習的潛力,了解這些方法的基本原理都可以讓您獲得有價值的見解并做出明智的決策。廣泛應用中的決策。

(更|多優質内|容:java567 點 c0m)

繼續閱讀