天天看點

機器學習系列 08:深入了解拉格朗日乘子法、KKT 條件和拉格朗日對偶性

  本内容将介紹支援向量機(SVM) 中需要使用的基礎知識:拉格朗日乘子法、KKT 條件 和 拉格朗日對偶性。

一、最優化問題

  最優化問題通常分為 無限制問題、等式限制問題 和 不等式限制問題。下面我們将介紹對這些問題如何求解。

1.1 無限制問題

  對于變量 x ∈ R n \mathbf{x} \in \Bbb{R}^{n} x∈Rn 的函數 f ( x ) f(\mathbf{x}) f(x),無限制優化問題如下:

(1) min ⁡ f ( x ) \min f(\mathbf{x}) \tag{1} minf(x)(1)

  常使用的方法就是 Fermat 定理,即求取 f ( x ) f(\mathbf{x}) f(x) 的導數,然後令其為 0,可以求得候選最優值;再在這些候選值中驗證。如果是凸函數,可以保證是最優解。如果沒有解析解或者很難通過上述方法求解,可使用 梯度下降法 或 牛頓法等疊代方法逼近極小值點。

凸函數:假設存在一個函數 f ( x ) f(x) f(x),對于任意屬于 [0,1] 的 a a a 任意兩點 x x x, y y y,有 a f ( x ) + ( 1 − a ) f ( y ) ≥ f ( a x + ( 1 − a ) y ) af(x) + (1-a)f(y) \geq f(ax + (1-a)y) af(x)+(1−a)f(y)≥f(ax+(1−a)y),那麼函數 f ( x ) f(x) f(x) 就是一個凸函數。幾何上的直覺了解就是兩點連線上某點的值,大于等于兩點之間某點的函數值。凸函數的任一局部極小值也是全局極小值。

1.2 等式限制問題

  加上等式限制條件後,問題如下:

(2) min ⁡ f ( x ) s . t . h i ( x ) = 0 , i = 1 , 2 , ⋯   , m \begin{aligned} &\min f(\mathbf{x}) \\ &s.t. \quad h_i(\mathbf{x}) = 0, \quad i = 1,2,\cdots,m \end{aligned} \tag{2} ​minf(x)s.t.hi​(x)=0,i=1,2,⋯,m​(2)

其中 s . t . s.t. s.t. 表示 subject to,“受限于”的意思。

  常使用的方法是 拉格朗日乘子法(Lagrange Multiplier)。即把等式限制 h i ( x ) h_i(\mathbf{x}) hi​(x) 用一個系數與 f ( x ) f(\mathbf{x}) f(x) 寫為一個式子,稱為拉格朗日函數,而系數稱為拉格朗日乘子。通過拉格朗日函數對各個變量求導,令其為零,可以求得候選值集合,然後驗證求得最優值。後面部分将進行詳細介紹。

1.3 不等式限制問題

  加上不等式限制條件後,問題如下:

(3) min ⁡ f ( x ) s . t . h i ( x ) = 0 , i = 1 , 2 , ⋯   , m g j ( x ) ≤ 0 , j = 1 , 2 , ⋯   , n \begin{aligned} &\min f(\mathbf{x}) \\ &s.t. \quad h_i(\mathbf{x}) = 0, \quad i = 1,2,\cdots,m \\ & \quad\quad\quad g_j(\mathbf{x}) \leq 0, \quad j = 1,2,\cdots,n \end{aligned} \tag{3} ​minf(x)s.t.hi​(x)=0,i=1,2,⋯,mgj​(x)≤0,j=1,2,⋯,n​(3)

  常使用的方法是 KKT 條件。同樣地,我們把所有等式、不等式限制與 f ( x ) f(\mathbf{x}) f(x) 寫為一個式子,也叫拉格朗日函數,系數也稱拉格朗日乘子,通過一些條件,可以求出最優值的必要條件,這個條件稱為 KKT 條件。後面部分将進行詳細介紹。

二、拉格朗日乘子法

  拉格朗日乘子法(Lagrange multiplier)是一種尋找多元函數在其變量受到一個或多個條件的限制時的極值的方法。這種方法可以将一個有 m 個變量與 k 個限制條件的最優化問題轉換為一個有 n+k 個變量的無限制問題求解。這種方法中引入一個或一組新的未知數,即 拉格朗日乘數,又稱 拉格朗日乘子,或 拉式乘子。

  假設求函數 f ( x , y ) f(x, y) f(x,y) 的極小值,并且要求滿足 g ( x , y ) = 0 g(x, y) = 0 g(x,y)=0,即

(4) min ⁡ f ( x , y ) s . t . g ( x , y ) = 0 \begin{aligned} &\min f(x, y) \\ &s.t. \quad g(x, y) = 0 \end{aligned} \tag{4} ​minf(x,y)s.t.g(x,y)=0​(4)

引入新變量拉格朗日乘子 α \alpha α,建構拉格朗日函數

(5) L ( x , y , α ) = f ( x , y ) + α g ( x , y ) L(x,y,\alpha) = f(x,y) + \alpha g(x,y) \tag{5} L(x,y,α)=f(x,y)+αg(x,y)(5)

  求解方法:對公式(5)關于 x x x, y y y 和 α \alpha α 求導

(6) { ∇ x f ( x , y ) + α ∇ x g ( x , y ) = 0 ∇ y f ( x , y ) + α ∇ y g ( x , y ) = 0 g ( x , y ) = 0 \left \{ \begin{array}{cc} \begin{aligned} &\nabla_x f(x, y) + \alpha \nabla_x g(x, y) = 0 \\ \\ &\nabla_y f(x, y) + \alpha \nabla_y g(x, y) = 0 \\ \\ &g(x, y) = 0 \end{aligned} \end{array} \right. \tag{6} ⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧​​∇x​f(x,y)+α∇x​g(x,y)=0∇y​f(x,y)+α∇y​g(x,y)=0g(x,y)=0​​(6)

并令其為 0,可求得 x x x, y y y 和 α \alpha α 的值(即拉格朗日函數的極值點);求得的 x x x 和 y y y 即為 f ( x , y ) f(x,y) f(x,y) 在限制條件 g ( x , y ) g(x, y) g(x,y) 下的可行解。

  為什麼可以通過求拉格朗日函數的極值而求得原目标函數的最優值?

  在平面畫出 f ( x , y ) f(x, y) f(x,y),如下圖-1 中的藍色虛線所示;限制條件 g ( x , y ) = 0 g(x, y) = 0 g(x,y)=0 ,如圖-1 中綠色實作所示。想象我們沿着 g ( x , y ) = 0 g(x, y) = 0 g(x,y)=0 的可行集走, f ( x , y ) f(x, y) f(x,y) 的等高線和 g ( x , y ) = 0 g(x, y) = 0 g(x,y)=0 存在三種情況:沒有交集、相交和相切。沒有交集,肯定不是解;如果相交,因為 f ( x , y ) f(x,y) f(x,y) 是連續函數,是以沿着 g ( x , y ) = 0 g(x, y) = 0 g(x,y)=0 能走到 f ( x , y ) f(x,y) f(x,y) 更高或更低的等高線上,意味着 f ( x , y ) f(x,y) f(x,y) 能夠取得更大或更小的值,是以相交得到的也不是解;是以相切時才可能得到可行解。

機器學習系列 08:深入了解拉格朗日乘子法、KKT 條件和拉格朗日對偶性

圖-1 (來自維基百科)

  相切的性質在此意味着 f ( x , y ) ​ f(x, y)​ f(x,y)​ 和 g ( x , y ) = 0 ​ g(x, y) = 0​ g(x,y)=0​ 的切線在某點上平行,同時也意味着兩者的梯度平行,即存在 α ≠ 0 ​ \alpha \neq 0​ α̸​=0​ 使得

(7) { ∇ x f ( x , y ) + α ∇ x g ( x , y ) = 0 ∇ y f ( x , y ) + α ∇ y g ( x , y ) = 0 \left \{ \begin{array}{cc} \nabla_x f(x, y) + \alpha \nabla_x g(x, y) = 0 \\ \\ \nabla_y f(x, y) + \alpha \nabla_y g(x, y) = 0 \end{array} \right. \tag{7} ⎩⎨⎧​∇x​f(x,y)+α∇x​g(x,y)=0∇y​f(x,y)+α∇y​g(x,y)=0​(7)

再加上原限制條件 g ( x , y ) = 0 g(x, y) = 0 g(x,y)=0 後,式(7)與式(6)相同。于是原限制問題可轉化為對拉格朗日函數 L ( x , y , α ) L(x, y, \alpha) L(x,y,α) 的無限制優化問題。

  更一般地,對前面式(2)中含有多個限制條件的情況,建構拉格朗日函數

(8) L ( x , α ) = f ( x ) + ∑ i = 1 m α i h i ( x ) L(\mathbf{x}, \alpha) = f(\mathbf{x}) + \sum_{i=1}^{m} \alpha_i h_i(\mathbf{x}) \tag{8} L(x,α)=f(x)+i=1∑m​αi​hi​(x)(8)

三、KKT 條件

  在數學中,Karush-Kuhn-Tucker 條件(簡稱 KKT 條件)是在滿足一些有規則的條件下,一個非線性規劃問題能有最優解的一個必要和充分條件。這是一個廣義拉格朗日乘數法的成果。

  假設求函數 f ( x , y ) f(x, y) f(x,y) 的極小值,并且要求滿足 g ( x , y ) ≤ 0 g(x, y) \leq 0 g(x,y)≤0,即

(9) min ⁡ f ( x , y ) s . t . g ( x , y ) ≤ 0 \begin{aligned} &\min f(x, y) \\ &s.t. \quad g(x, y) \leq 0 \end{aligned} \tag{9} ​minf(x,y)s.t.g(x,y)≤0​(9)

  可行解 x \mathbf{x} x 隻能在 g ( x ) &lt; 0 g(\mathbf{x}) &lt; 0 g(x)<0 或者 g ( x ) = 0 g(\mathbf{x}) = 0 g(x)=0 的區域中,針對這兩種情況,具體分析如下:

  • 當可行解 x \mathbf{x} x 在 g ( x ) &lt; 0 g(\mathbf{x}) &lt; 0 g(x)<0 的區域内:限制條件 g ( x ) ≤ 0 g(\mathbf{x}) \leq 0 g(x)≤0 不起作用,可直接通過 ∇ f ( x ) = 0 \nabla f(\mathbf{x}) = 0 ∇f(x)=0 來求得最優值;等價于将 β \beta β 置零,然後對 ∇ x L ( x , β ) \nabla_{\mathbf{x}} L(\mathbf{x}, \beta) ∇x​L(x,β) 置零求得最優值。
  • 當可行解 x \mathbf{x} x 在 g ( x ) = 0 g(\mathbf{x}) = 0 g(x)=0 的區域内:類似于上面的等式限制問題。因為在限制邊界上,目标函數的負梯度方向應該遠離限制區域朝向無限制時的解,是以限制函數的梯度方向與目标函數的梯度方向相反,即存在常數 β &gt; 0 \beta &gt; 0 β>0 使得

(10) ∇ f ( x ) + β ∇ g ( x ) = 0 \nabla f(\mathbf{x}) + \beta \nabla g(\mathbf{x}) = 0 \tag{10} ∇f(x)+β∇g(x)=0(10)

  整合上面的兩種情況,需要滿足 β g ( x ) = 0 \beta g(\mathbf{x}) = 0 βg(x)=0。是以,在限制條件 g ( x ) ≤ 0 g(\mathbf{x}) \leq 0 g(x)≤0 下最小化 f ( x ) f(\mathbf{x}) f(x) 的問題,可轉化為在如下限制條件下最小化拉格朗日函數 L ( x , β ) L(\mathbf{x}, \beta) L(x,β) 的問題

(11) { g ( x ) ≤ 0 β ≥ 0 β g ( x ) = 0 \left \{ \begin{array}{cc} \begin{aligned} &amp; g(\mathbf{x}) \leq 0 \\ \\ &amp; \beta \geq 0 \\ \\ &amp; \beta g(\mathbf{x}) = 0 \end{aligned} \end{array} \right. \tag{11} ⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧​​g(x)≤0β≥0βg(x)=0​​(11)

稱為 KKT 條件。

  更一般地,對前面公式(3)中含有多個限制條件的情況,建構廣義拉格朗日函數

(12) L ( x , α , β ) = f ( x ) + ∑ i = 1 m α i h i ( x ) + ∑ j = 1 n β i g i ( x ) L(\mathbf{x}, \alpha, \beta) = f(\mathbf{x}) + \sum_{i=1}^{m} \alpha_i h_i(\mathbf{x}) + \sum_{j=1}^{n} \beta_i g_i(\mathbf{x}) \tag{12} L(x,α,β)=f(x)+i=1∑m​αi​hi​(x)+j=1∑n​βi​gi​(x)(12)

其 KKT 條件為

(13) { h i ( x ) = 0 g j ( x ) ≤ 0 β j ≥ 0 β j g j ( x ) = 0 \left \{ \begin{array}{cc} \begin{aligned} &amp; h_i(\mathbf{x}) = 0 \\ \\ &amp; g_j(\mathbf{x}) \leq 0 \\ \\ &amp; \beta_j \geq 0 \\ \\ &amp; \beta_j g_j(\mathbf{x}) = 0 \end{aligned} \end{array} \right. \tag{13} ⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧​​hi​(x)=0gj​(x)≤0βj​≥0βj​gj​(x)=0​​(13)

其中 i = 1 , 2 , ⋯ &ThinSpace; , m i = 1,2,\cdots,m i=1,2,⋯,m, j = 1 , 2 , ⋯ &ThinSpace; , n j = 1,2,\cdots,n j=1,2,⋯,n, h i ( x ) = 0 h_i(x) = 0 hi​(x)=0 為原始限制條件。

四、拉格朗日對偶性

  在限制最優化問題中,對于難以求解的原始問題,常利用 拉格朗日對偶性(Lagrange duality)将原始問題轉換為對偶問題,通過解對偶問題而得到原始問題的解。

4.1 原始問題

  針對式(3)原始的優化問題,以及其廣義拉格朗日函數(式(12)),定義函數

(14) θ P ( x ) = max ⁡ α , β ; α ≥ 0 L ( x , α , β ) \theta _P(\mathbf{x}) = \max_{\alpha, \beta;\alpha \geq 0} L(\mathbf{x}, \alpha, \beta) \tag{14} θP​(x)=α,β;α≥0max​L(x,α,β)(14)

  通過以下推導

(15) ∵ h i ( x ) = 0 , β ≥ 0 , g j ( x ) ≤ 0 ∴ β g j ( x ) ≤ 0 ∴ max ⁡ α , β ; β ≥ 0 L ( x , α , β ) = f ( x ) ∴ min ⁡ x f ( x ) = min ⁡ x max ⁡ α , β ; β ≥ 0 L ( x , α , β ) \begin{aligned} &amp;\because h_i(\mathbf{x}) = 0, \beta \geq 0, g_j(\mathbf{x}) \leq 0 \\ \\ &amp;\therefore \beta g_j(\mathbf{x}) \leq 0 \\ \\ &amp;\therefore \max_{\alpha, \beta;\beta \geq 0} L(\mathbf{x}, \alpha, \beta) = f(\mathbf{x}) \\ \\ &amp;\therefore \min_{\mathbf{x}} f(\mathbf{x}) = \min_{\mathbf{x}} \max_{\alpha, \beta;\beta \geq 0} L(\mathbf{x}, \alpha, \beta) \end{aligned} \tag{15} ​∵hi​(x)=0,β≥0,gj​(x)≤0∴βgj​(x)≤0∴α,β;β≥0max​L(x,α,β)=f(x)∴xmin​f(x)=xmin​α,β;β≥0max​L(x,α,β)​(15)

原始限制優化問題轉換為廣義拉格朗日函數的極小極大問題。為了便于表示,定義原始問題的最優值為

(16) p ∗ = min ⁡ x θ P ( x ) = min ⁡ x max ⁡ α , β ; β ≥ 0 L ( x , α , β ) p^{*} = \min_{\mathbf{x}} \theta _P(\mathbf{x}) = \min_{\mathbf{x}} \max_{\alpha, \beta;\beta \geq 0} L(\mathbf{x}, \alpha, \beta) \tag{16} p∗=xmin​θP​(x)=xmin​α,β;β≥0max​L(x,α,β)(16)

4.2 對偶問題

  定義函數

(17) θ D ( α , β ) = min ⁡ x L ( x , α , β ) \theta_D(\alpha, \beta) = \min_{\mathbf{x}} L(\mathbf{x}, \alpha, \beta) \tag{17} θD​(α,β)=xmin​L(x,α,β)(17)

再将其進行最大化,得到

(18) max ⁡ α , β ; β ≥ 0 θ D ( α , β ) = max ⁡ α , β ; β ≥ 0 min ⁡ x L ( x , α , β ) \max_{\alpha, \beta;\beta \geq 0} \theta_D(\alpha, \beta) = \max_{\alpha, \beta;\beta \geq 0} \min_{\mathbf{x}} L(\mathbf{x}, \alpha, \beta) \tag{18} α,β;β≥0max​θD​(α,β)=α,β;β≥0max​xmin​L(x,α,β)(18)

稱為廣義拉格朗日函數的極大極小問題。将其表示為限制問題

(19) max ⁡ α , β min ⁡ x L ( x , α , β ) s . t . β j , j = 1 , 2 , ⋯ &ThinSpace; , n \begin{aligned} &amp; \max_{\alpha, \beta} \min_{\mathbf{x}} L(\mathbf{x}, \alpha, \beta) \\ &amp; s.t. \quad \beta_j, \quad j=1,2,\cdots,n \end{aligned} \tag{19} ​α,βmax​xmin​L(x,α,β)s.t.βj​,j=1,2,⋯,n​(19)

稱為原始問題的 對偶問題。為了便于表示,定義對偶問題的最優值為

(20) d ∗ = max ⁡ α , β ; α ≥ 0 min ⁡ x L ( x , α , β ) d^{*} = \max_{\alpha, \beta;\alpha \geq 0} \min_{\mathbf{x}} L(\mathbf{x}, \alpha, \beta) \tag{20} d∗=α,β;α≥0max​xmin​L(x,α,β)(20)

4.3 原始問題和對偶問題的關系

  原始問題和對偶問題滿足如下關系:

(21) d ∗ ≤ p ∗ d^{*} \leq p^{*} \tag{21} d∗≤p∗(21)

這個性質叫做 弱對偶性(weak duality)。

證明過程:

(22) ∵ θ D ( α , β ) = min ⁡ x L ( x , α , β ) ≤ L ( x , α , β ) ≤ max ⁡ α , β ; α ≥ 0 L ( x , α , β ) = θ P ( x ) ∴ max ⁡ α , β ; α ≥ 0 θ D ( α , β ) ≤ min ⁡ x θ P ( x ) ∴ d ∗ ≤ p ∗ \begin{aligned} &amp;\because \theta_D(\alpha, \beta) = \min_{\mathbf{x}} L(\mathbf{x}, \alpha, \beta) \leq L(\mathbf{x}, \alpha, \beta) \leq \max_{\alpha, \beta;\alpha \geq 0} L(\mathbf{x}, \alpha, \beta) = \theta _P(\mathbf{x}) \\ \\ &amp;\therefore \max_{\alpha, \beta;\alpha \geq 0} \theta_D(\alpha, \beta) \leq \min_{\mathbf{x}} \theta _P(\mathbf{x}) \\ \\ &amp;\therefore d^{*} \leq p^{*} \end{aligned} \tag{22} ​∵θD​(α,β)=xmin​L(x,α,β)≤L(x,α,β)≤α,β;α≥0max​L(x,α,β)=θP​(x)∴α,β;α≥0max​θD​(α,β)≤xmin​θP​(x)∴d∗≤p∗​(22)

  與弱對偶性相對應的是 強對偶性(strong duality),滿足如下關系:

(23) d ∗ = p ∗ d^{*} = p^{*} \tag{23} d∗=p∗(23)

  對于式(3)的原始問題和式(19)的對偶問題,假設函數 f ( x ) f(x) f(x) 和 g j ( x ) g_j(\mathbf{x}) gj​(x) 是凸函數, h i ( x ) h_i(\mathbf{x}) hi​(x) 是仿射函數,并且不等式限制 g j ( x ) g_j(\mathbf{x}) gj​(x) 是嚴格可行的。如果滿足 KKT 條件時,強對偶性成立。即可通過求解對偶問題而得到原始問題的解。

證明過程:

(24) max ⁡ α , β min ⁡ x L ( x , α , β ) = max ⁡ α , β ( min ⁡ x f ( x ) + min ⁡ x ∑ i = 1 m α i h i ( x ) + min ⁡ x ∑ j = 1 n β j h j ( x ) ) = max ⁡ α , β min ⁡ x f ( x ) + max ⁡ α , β min ⁡ x ∑ i = 1 m α i h i ( x ) + max ⁡ α , β min ⁡ x ∑ j = 1 n β j h j ( x ) = min ⁡ x f ( x ) + max ⁡ β min ⁡ x ∑ j = 1 n β j h j ( x ) \begin{aligned} \max_{\alpha, \beta} \min_{\mathbf{x}} L(\mathbf{x}, \alpha, \beta) &amp;= \max_{\alpha, \beta} \left( \min_{\mathbf{x}} f(\mathbf{x}) + \min_{\mathbf{x}} \sum_{i=1}^{m} \alpha_i h_i(\mathbf{x}) + \min_{\mathbf{x}} \sum_{j=1}^{n} \beta_j h_j(\mathbf{x}) \right) \\ &amp; = \max_{\alpha, \beta} \min_{\mathbf{x}} f(\mathbf{x}) + \max_{\alpha, \beta} \min_{\mathbf{x}} \sum_{i=1}^{m} \alpha_i h_i(\mathbf{x}) + \max_{\alpha, \beta} \min_{\mathbf{x}} \sum_{j=1}^{n} \beta_j h_j(\mathbf{x}) \\ &amp; = \min_{\mathbf{x}} f(\mathbf{x}) + \max_{\beta} \min_{\mathbf{x}} \sum_{j=1}^{n} \beta_j h_j(\mathbf{x}) \end{aligned} \tag{24} α,βmax​xmin​L(x,α,β)​=α,βmax​(xmin​f(x)+xmin​i=1∑m​αi​hi​(x)+xmin​j=1∑n​βj​hj​(x))=α,βmax​xmin​f(x)+α,βmax​xmin​i=1∑m​αi​hi​(x)+α,βmax​xmin​j=1∑n​βj​hj​(x)=xmin​f(x)+βmax​xmin​j=1∑n​βj​hj​(x)​(24)

  我們先來看一下 min ⁡ x ∑ j = 1 n β j g j ( x ) \min_{\mathbf{x}} \sum_{j=1}^{n} \beta_j g_j(\mathbf{x}) minx​∑j=1n​βj​gj​(x)

(25) ∵ β ≥ 0 , g j ( x ) ≤ 0 ∴ min ⁡ x ∑ j = 1 n β j g j ( x ) = { 0 , β j = 0 ∣ ∣ g j ( x ) = 0 − ∞ , β j &gt; 0 &amp; g j ( x ) &lt; 0 ∴ max ⁡ β min ⁡ x ∑ j = 1 n β j g j ( x ) = 0 , β j = 0 ∣ ∣ g j ( x ) = 0 \begin{aligned} &amp; \because \beta \geq 0, g_j(\mathbf{x}) \leq 0 \\\\ &amp; \therefore \min_{\mathbf{x}} \sum_{j=1}^{n} \beta_j g_j(\mathbf{x}) = \left \{ \begin{array}{cc} 0,\quad \beta_j = 0 || g_j(\mathbf{x}) = 0 \\ -\infty, \quad \beta_j &gt; 0 \&amp; g_j(\mathbf{x}) &lt; 0 \end{array} \right. \\\\ &amp; \therefore \max_{\beta} \min_{\mathbf{x}} \sum_{j=1}^{n} \beta_j g_j(\mathbf{x}) = 0, \quad \beta_j = 0 || g_j(\mathbf{x}) = 0 \end{aligned} \tag{25} ​∵β≥0,gj​(x)≤0∴xmin​j=1∑n​βj​gj​(x)={0,βj​=0∣∣gj​(x)=0−∞,βj​>0&gj​(x)<0​∴βmax​xmin​j=1∑n​βj​gj​(x)=0,βj​=0∣∣gj​(x)=0​(25)

由式(15)、式(24)和式(25)中的結果可得

(26) max ⁡ α , β min ⁡ x L ( x , α , β ) = min ⁡ x f ( x ) = min ⁡ x max ⁡ α , β L ( x , α , β ) s . t . β j ≥ 0 β j g j ( x ) = 0 \begin{aligned} &amp;\max_{\alpha, \beta} \min_{\mathbf{x}} L(\mathbf{x}, \alpha, \beta) = \min_{\mathbf{x}} f(\mathbf{x}) = \min_{\mathbf{x}} \max_{\alpha, \beta} L(\mathbf{x}, \alpha, \beta) \\ &amp;s.t. \quad \beta_j \geq 0 \\ &amp;\quad \quad \quad \beta_j g_j(\mathbf{x}) = 0 \end{aligned} \tag{26} ​α,βmax​xmin​L(x,α,β)=xmin​f(x)=xmin​α,βmax​L(x,α,β)s.t.βj​≥0βj​gj​(x)=0​(26)

再加上原始限制條件 h i ( x ) = 0 h_i(\mathbf{x}) = 0 hi​(x)=0 和 g j ( x ) = 0 g_j(\mathbf{x}) = 0 gj​(x)=0 後,與式(13)相同,即 KKT 條件。

參考:

[1] 周志華《機器學習》

[2] 李航《統計學習方法》

[3] https://zh.wikipedia.org/wiki/拉格朗日乘數

[4] https://zh.wikipedia.org/wiki/卡羅需-庫恩-塔克條件

[5] https://blog.csdn.net/u014472643/article/details/79612204

[6] https://www.cnblogs.com/liaohuiqiang/p/7805954.html

[7] https://www.cnblogs.com/liaohuiqiang/p/7818448.html

[8] https://blog.csdn.net/xianlingmao/article/details/7919597

[9] https://www.cnblogs.com/ooon/p/5721119.html

繼續閱讀