天天看點

《R語言資料挖掘》----1.9 機器學習

應用于機器學習算法的資料集稱為訓練集,它由一組成對的資料(x, y)構成,稱為訓練樣本。成對的資料解釋如下:

x:這是一個值向量,通常稱為特征向量。每個值或者特征,要麼是分類變量(這些值來自一組離散值,比如{s, m, l}),要麼是數值型。

y:這是一個标簽,表示x的分類或者回歸值。

機器學習過程的目的就是發現一個函數y=f(x),它能最好地預測與每一個x值相關聯的y值。原則上y的類型是任意的,但有一些常見的和重要的類型:

y:這是一個實數,機器學習問題稱為回歸。

y:這是一個布爾值,真或者假,通常分别寫為+1和-1。在這種情況下,機器學習問題稱為二進制分類。

y:這是某些有限集合的成員。這個集合的成員可以認為是類,并且每個成員代表一類。此機器學習問題稱為多級分類。

y:這是某些潛在無限集合的成員,例如,x的一個解析樹,它被解析為一個句子。

到現在為止,在我們可以更直接地描述挖掘目标的情況下,還沒有證明機器學習是成功的。機器學習和資料挖掘是兩個不同的主題,盡管它們共享一些算法——特别是目标為提取資訊時。在某些情況下,機器學習是有意義的,一個典型的情形就是當我們試圖從資料集中尋找某些資訊。

算法的主要類型均列于下方,每個算法由函數f區分。

決策樹(decision tree):這種形式的f呈樹形,樹的每個節點都有一個關于x的函數,用來确定必須搜尋哪個子節點或者哪些子節點。

感覺器(perceptron):這些是應用于向量x={x1, x2, …, xn}的分量的門檻值函數。對每個i=1, 2, …, n,權重wi與第i個分量相關聯,且有一個門檻值wixi≥θ。如果門檻值滿足條件,輸出為+1,否則為-1。

神經網絡(neural net):這些是有感覺器的非循環網絡,某些感覺器的輸出用作其他感覺器的輸入。

基于執行個體的學習(instance-based learning):此方法使用整個訓練集來表

示函數f。

支援向量機(support-vector machine):該類的結果是一個分類器,它對未知資料更準确。分類的目标是尋找最優超平面,通過最大化兩個類的最近點之間的間隔将它們分隔。

這裡,機器學習的資料方面指的是處理資料的方式以及使用資料構模組化型的方式。

訓練和測試(training and testing):假定所有資料都适用于訓練,分離出一小部分可用的資料作為測試集,使用餘下的資料建立一個合适的模型或者分類器。

批處理與線上學習(batch versus online learning):對于批處理方式,在其程序的開始,整個訓練集都是可得到的;對于線上學習,其訓練集以資料流的形式獲得,且對它進行處理後不能被再次通路。

特征選擇(feature selection):這有助于找出那些用作學習算法輸入的特征。

建立訓練集(creating a training set):通過手動建立标簽資訊,進而把資料變為訓練集。

繼續閱讀