天天看點

機器學習:有監督和無監督之間有什麼差別

--------點選螢幕右側或者螢幕底部“+訂閱”,關注我,随時分享機器智能最新行業動态及技術幹貨----------

機器學習:有監督和無監督之間有什麼差別

機器學習是人工智能的一個子集,它通過示例和經驗教會計算機執行任務,是研究和開發的熱門領域。我們每天使用的許多應用程式都使用機器學習算法,包括 AI 助手,Web 搜尋和機器翻譯。

您的社交媒體新聞提要由機器學習算法提供支援。您、看到的推薦視訊是機器學習模型的結果。Spotify 的“發現周刊”利用機器學習算法的強大功能來建立符合您喜好的歌曲清單。

但是機器學習有許多不同的風格。在這篇文章中,我們将探讨有監督和無監督學習,這是機器學習算法的兩個主要類别。每個子集由許多适合各種任務的不同算法組成。

關于機器學習的快速筆記

在深入研究有監督和無監督學習之前,我們先來了解一下什麼是機器學習。當今的 AI 系統以最簡單的形式将輸入轉換為輸出。例如,圖像分類器将圖像或視訊幀作為輸入,并輸出圖像中包含的對象的種類。欺詐檢測算法将支付資料作為輸入,并輸出交易欺詐的可能性。下棋的 AI 将棋盤的目前狀态作為輸入并輸出下一個動作。

開發智能系統的經典方法稱為符号人工智能,要求程式員明确指定将輸入映射到輸出的規則。盡管符号 AI 有很多好處,但在輸入可以以多種形式出現的領域中使用有限,例如計算機視覺,語音識别和自然語言處理。

相反,機器學習使用不同的方法來發展行為。在建立 ML 系統時,開發人員會建立一個通用結構,并在許多示例中進行教育訓練。這些示例可以是帶有相應圖像的圖檔,國際象棋遊戲資料,客戶購買的物品,使用者聽過的歌曲或與 AI 模型要解決的問題有關的任何其他資料。在分析了訓練資料之後,機器學習算法對其内部參數進行了調整,以能夠處理新的輸入資料。

監督學習

Logistic 回歸是一種有監督的機器學習算法,可以将輸入分類為不同的類。

如果您關注人工智能新聞,您可能已經聽說過 AI 算法需要很多人工标記的示例。這些故事指的是監督學習,這是機器學習算法中比較流行的類别。監督式機器學習适用于您知道輸入資料結果的情況。假設您要建立一個圖像分類機器學習算法,該算法可以檢測貓,狗和馬的圖像。

要訓練 AI 模型,您必須收集貓,狗和馬照片的大型資料集。但是在将它們輸入機器學習算法之前,您必須使用它們各自類的名稱對其進行注釋。批注可能包括使用檔案命名約定将每個類的圖像放在單獨的檔案夾中,或将中繼資料附加到圖像檔案中。這是費力的手動任務,在提到 AI 工廠的故事中經常提到。

标記資料後,機器學習算法(例如卷積神經網絡或支援向量機)将處理這些示例并開發可将每個圖像映射到其正确類别的數學模型。如果對 AI 模型進行足夠的帶标簽的示例訓練,它将能夠準确地檢測出包含貓,狗,馬的新圖像類别。

監督機器學習解決了兩種類型的問題:分類和回歸。上面說明的示例是一個分類問題,其中機器學習模型必須将輸入放入特定的存儲桶或類别中。分類問題的另一個示例是語音識别。

回歸機器學習模型不限于特定類别。它們可以具有連續的無限值,例如客戶将為産品支付多少費用或明天下雨的可能性。

一些常見的監督學習算法包括:

  • 線性和邏輯回歸
  • 樸素貝葉斯
  • 支援向量機
  • 決策樹和随機森林
  • 人工神經網絡
  • 無監督學習
機器學習:有監督和無監督之間有什麼差別

無監督機器學習算法可以基于共享特征将資料劃分為叢集

假設您是一個電子商務零售企業所有者,他擁有成千上萬的客戶銷售記錄。您想找出哪些客戶有共同的購買習慣,以便您可以使用該資訊向他們提出相關建議并改善您的追加銷售政策。問題是您沒有預定義的類别将客戶劃分為多個類别。是以,您不能訓練監督式機器學習模型來對客戶進行分類。

這是一個聚類問題,主要用于無監督機器學習。與監督學習不同,無監督機器學習不需要标記資料。它仔細研究了訓練示例,并根據它們的共同特征将它們分為幾類。訓練有素的無監督機器學習算法會将您的客戶劃分為相關的叢集。這将幫助您根據客戶與叢集中其他人的共同偏好來預測客戶将購買的産品。

K-means 是衆所周知的無監督聚類機器學習算法。使用k均值的挑戰之一是知道将資料劃分為多少個群集。太少的包會打包不太相似的資料,而太多的簇隻會使您的模型複雜且不準确。除了聚類之外,無監督學習還可以執行降維。當資料集具有太多特征時,可以使用降維。假設您有一個有關客戶的資訊表,該表有 100 列。擁有有關您的客戶的大量資料可能聽起來很有趣。但實際上并非如此。

随着資料中功能數量的增加,您還将需要更大的樣本集來訓練準确的機器學習模型。您可能沒有足夠的樣本來訓練 100 列模型。太多的功能也增加了過度拟合的機會,這實際上意味着您的AI模型在訓練資料上表現良好,而在其他資料上表現不佳。

無監督的機器學習算法可以分析資料并找到不相關的特征,可以将其删除以簡化模型而不會失去寶貴的見解。例如,對于我們的客戶表,通過降維算法運作它之後,我們可能會發現與客戶的年齡和家庭住址相關的功能幾乎沒有關聯,是以可以将其删除。

主成分分析(PCA)是一種流行的降維機器學習算法。一些安全分析師還使用無監督的機器學習進行異常檢測,以識别組織網絡中的惡意活動。

無監督學習的好處之一是,它不需要監督學習必須經曆的費力的資料标記過程。但是,要權衡的是,評估其性能的有效性也非常困難。相反,通過将監督學習算法的輸出與測試資料的實際标簽進行比較,可以很容易地衡量監督學習算法的準确性。

機器學習:有監督和無監督之間有什麼差別

原文連結:

https://ai.51cto.com/art/202006/617921.htm

文章轉自51cto,本文一切觀點和《機器智能技術》圈子無關

繼續閱讀