天天看點

間隔的直覺了解

1. 間隔的直覺了解

這一章從“間隔”這個概念開始講述SVM(支援向量機)模型。本文會以實際的例子讓讀者對于“間隔”的概念有一個更清晰直覺的了解。我們會将前兩節總結的思想在第三節通過數學語言來描述。

對于logistic分類模型,由公式 hθ(x)=g(θTx) 計算條件機率 p(y=1|x;θ) 。隻有在 hθ(x)≥0.5 我們會預測y=1,等價于 θTx≥0 時y=1。對單個正樣本(y=1)而言, θTx 的值越大,條件機率 p(y=1|x;θ) 就越大,那我們就更“确信”這個樣本标記為1。這樣模型就有一個很好的優化方向,尋找參數 θ 使得當 y(i)=1 時 θTx>>0 ,同理當 y(i)=0 時使 θTx<<0 ,這反映我們對訓練樣本分類結果的确定性。我們将會通過函數間隔來刻畫這個思想。

注意看下面這張圖,叉叉代表正樣本,圓圈代表負樣本。我們畫出了一條決策線(也可稱為分離超平面,其上的點滿足 θTx=0 )。我們标出了三個示範點A、B、C。

間隔的直覺了解

可以很容易的發現A點離決策線很遠,而C點離決策線很近。我們可以很有信心的說A是一個正樣本(y=1),但C點就不太确定了,決策線的參數隻需稍有改變,C點就極有可能變成負樣本(y=0)。B點相對決策線的距離在A、C之間,我們對它的确信度也在A、C之間。整理一下思路,我們需要找到一條直線使得直線兩邊的點到它的距離都盡可能的遠,這樣我們才能确信自己的判斷。我們之後會以實體間隔這個概念來描述此問題。

标記符

之後支援向量機的讨論中,我們将使用一組新的标記符。對于二分類問題中的線性分類器,标注記為 y ,特征為x。我們令y的值域為 y∈{−1,1} (而非 {0,1} )。同時模型參數的标記從向量 θ 變為 w,b 。公式即改寫為:

hw,b(x)=g(wTx+b)

對于函數 g ,當z≥0時 g(z)=1 ,當 z≤0 時 g(z)=−1 。目前 w,b 組合的标記符有利于我們将截距項 b 從衆多參數中分離出來。

還有一點需要注意,從函數g的定義可以看出這個分類器會直接預測1或-1,這一點和感覺器模型是一緻的。而不是像logisitc分類器先求解y=1的條件機率 P(y=1|θ;x) 後再做判斷。

函數間隔和實體間隔

這一節将正式給出函數間隔和實體間隔的數學定義。對某一給定訓練樣本 (x(i),y(i)) ,我們定義其函數間隔為:

γ^(i)=y(i)(wTx(i)+b)

從上式可以看出,當 y(i)=1 時要使函數間隔變大,隻需增大 wTx+b 。同理當 y(i)=−1 隻需減小 wTx+b 函數間隔就會增大。同時當 y(i)(wTx(i)+b)≥0 即代表我們預測正确。是以足夠大的函數間隔表示這是一個置信度很高的正确預測。

對于某一給定訓練集 S={(x(i),y(i));i=1,⋯,m} ,我們定義訓練集中最小函數間隔記為 γ^ :

γ^=mini=1,⋯,mγ^(i)

但是用函數間隔描述置信度存在一個問題,如果我們将參數從 (w,b) 替換成 (2w,2b) 那麼函數間隔會擴大一倍,但實際并不能增加置信度。直覺告訴我們,這裡可能需要有一個歸一化條件比如 ∥w∥2=1 ,将 (w,b) 替換成 (w/∥w∥2,b/∥w∥2) 再來計算函數間隔,這就引出了幾何間隔的概念。我們接下來讨論幾何間隔,看下圖:

間隔的直覺了解

我們畫出了決策線,易見 w 同決策線正交(垂直)。點A是一個輸入為x(i)标記為 y(i)=1 的正樣本。它到決策線的距離 γ(i) 就是線段AB。我們如何确定 γ(i) 的數值呢?首先 w/∥w∥ 是 w 的機關向量,點A的坐标為x(i)那麼點B的坐标可表示為 x(i)−γ(i)⋅w/∥w∥ ,又點B在決策線上則有:

wT(x(i)−γ(i)w∥w∥)+b=0

求解方程得:

γ(i)=wTx(i)+b∥w∥=(w∥w∥)Tx(i)+b∥w∥.

這就是幾何間隔的數學公式。當 ∥w∥=1 時,幾何間隔和函數間隔相等。從公式中可以發現參數的縮放不會影響幾何間隔的大小。

最後,對于某一給定訓練集 S={(x(i),y(i));i=1,⋯,m} ,我們定義訓練集中最小幾何間隔記為 γ :

γ=mini=1,⋯,mγ(i)

本文主要内容來自吳恩達老師網易公開課機器學習中的課件,本人自行翻譯并重新對文章進行編輯排版,轉載請注明出處