
機器學習(ML)是教導計算機系統根據一組資料進行預測的過程。通過為系統提供一系列的試驗和錯誤場景,機器學習研究人員緻力于建立 可以分析資料,回答問題并自行做出決定的人工智能系統。
機器學習通常使用基于測試資料的算法,該算法有助于在将來的決策中進行推理和模式識别,進而消除了對傳統計算機軟體要求的來自人類的明确指令的需求。
什麼是機器學習?
機器學習依賴于大量資料,這些資料被饋送到算法中,以生成一個模型,系統可以根據該模型來預測其未來的決策。例如,如果您要輸入到系統中的資料是一年中每天在午餐中吃的水果,則您可以使用預測算法來分析不同的水果,并為該水果建立預測模型您可能在第二年進食。
該過程基于反複試驗的情況,通常使用多種算法。這些算法分為線性模型,非線性模型,甚至神經網絡。它們最終将取決于您正在使用的資料集以及您要回答的問題。
機器學習算法如何工作?
機器學習算法會随着時間的推移使用資料來學習和改進,并且不需要人工指導。該算法分為三種類型:有監督,無監督和強化學習。每種學習類型都有不同的目的,并且可以使資料以不同的方式使用。
監督學習
監督學習涉及标記的訓練資料,算法使用該訓練資料來學習将輸入變量轉換為輸出變量以求解方程的映射函數。其中有兩種監督學習類型:分類,當輸出為類别形式時,用于預測給定樣本的結果;回歸,當輸出時,用于預測給定樣本的結果。變量是實際值,例如“工資”或“權重”。
監督學習模型的一個示例是K-最近鄰居(KNN)算法,它是一種模式識别方法。KNN本質上涉及使用圖表來根據附近相似物體的傳播情況得出關于物體分類的有根據的猜測。
在上表中,綠色圓圈表示一個尚未分類的對象,它隻能屬于兩個可能的類别之一:藍色正方形或紅色三角形。為了識别其所屬的類别,在這種情況下,算法将分析圖表上最接近的對象,算法将合理地假設綠色圓圈應屬于紅色三角形類别。
無監督學習
當隻有輸入變量而沒有相應的輸出變量時,将使用無監督學習模型。它使用未标記的訓練資料來模組化資料的基礎結構。
無監督學習算法有三種類型:關聯,廣泛用于市場購物分析;聚類,用于比對與另一個聚類中的對象相似的樣本;和降維,用于減少資料集中變量的數量,同時保持其重要資訊不變。
強化學習
強化學習允許代理通過學習最大化獎勵的行為,根據其目前狀态決定其下一步行動。它通常用于遊戲環境,在遊戲環境中提供了規則的算法,并負責以最有效的方式解決挑戰。該模型最初會随機開始,但是随着時間的流逝,通過反複試驗,它将了解需要在遊戲中移動的位置和時間以最大化得分。
在這種類型的教育訓練中,獎勵僅僅是與積極成果相關的狀态。例如,如果算法能夠将汽車保持在道路上而不會撞到障礙物,那麼它将“獎勵”任務完成。
為什麼機器學習很有用?
本質上,機器學習解決了資料過多的問題。人們,行動,事件,計算機和小工具所産生的資訊太多,以至于人類幾乎不可能從中學習任何東西。在醫學分析中,要在成千上萬的MRI掃描中找到模式,一個人可能要花費數小時,數天或數周的時間才能完成,但是如果正确标記了機器,機器可以吸收這些資訊并在幾秒鐘内發現這些模式。
機器學習在哪裡使用?
我們每天都會使用最簡單,最成功的機器學習示例之一-Google搜尋。搜尋引擎由許多ML算法提供支援,這些算法可以讀取和分析您輸入的文本,并根據您的搜尋曆史和線上習慣來定制結果。例如,如果您輸入“ Java”,您将獲得圍繞程式設計語言的結果,或者更頻繁地浮出水面,這取決于它決定了您的偏好。
我們未來的許多技術進步都取決于機器學習的發展,例如無人駕駛汽車和智慧城市。許多為智慧城市提供動力的系統正在進入公共空間,例如面部識别系統,該系統中的機器學習算法被教為識别圖像中的模式并根據其特征識别對象。但是,這已被證明是ML的有争議用途,尤其是因為它并不總是準确的,并且經常涉及對公民的某種定期監視。
資料偏差
随着機器學習的改進和更多技術的使用,人們越來越擔心将偏見嵌入關鍵的和面向公衆的軟體中。機器學習應用程式依賴于資料,而正是這些資料可能成為偏差的來源。例如,如果一家公司想雇用更多不同種類的人,但使用其目前雇員的履歷,則預設情況下,其機器學習程式将隻尋找更多相同的人。
正是這種類型的機器學習應用引起了政府的擔憂,是以,許多政府正在采取強制性的法規來解決這個問題。英國資料倫理與創新中心(CDEI)宣布将與内閣辦公室種族差異部門合作,調查算法決策中的潛在偏見。同樣,美國政府将試行AI方面的多樣性法規,以降低計算機系統中性偏見和種族偏見的風險。
原文連結:
https://ai.51cto.com/art/202011/631462.htm本文轉自51CTO,本文一切觀點和機器智能技術圈子無關。
線上免費體驗百種AI能力:【點此跳轉】