天天看點

深度學習-23:矩陣理論(L0/L1/L2範數)深度學習-23:矩陣理論(L0/L1/L2範數)

深度學習-23:矩陣理論(L0/L1/L2範數)

深度學習原理與實踐(開源圖書)-總目錄, 建議收藏,告别碎片閱讀!

線性代數是數學的一個分支,廣泛應用于科學和工程領域。線性代數和矩陣理論是機器學習和人工智能的重要數學基礎。有短闆的請補課,推薦《The Matrix Cookbook》。線性代數主要涉及矩陣理論,本節圍繞矩陣理論展開。

1 标量、向量和張量

标量: 一個标量就是一個單獨的數字

向量: 一個向量就是一列數字。例如 x= [x1,x2,…xn]

矩陣:一個矩陣就是一個二維數組 A = [[A11,A12], [A21,A22]]

張量: 一個數組中的元素分布于若幹坐标的規則網格中,稱為張量

2 矩陣和矩陣的性質

矩陣乘積具有配置設定律: A(B+C)=AB+AC

矩陣乘積具有結合律: A(BC)=(AB)C

機關矩陣和逆矩陣

對角矩陣

線性相關

3 範數

衡量一個向量的大小,在機器學習中稱為範數。範數的定義為:

∣ ∣ x ∣ ∣ p = ( ∑ n = 1 N ∣ x i ∣ p ) 1 / p ||x||_p = (\sum_{n=1}^N|x_i|^p)^1/p ∣∣x∣∣p​=(n=1∑N​∣xi​∣p)1/p

L0範數: 向量中非0的元素的個數。如果我們用L0範數來規則化一個參數矩陣W的話,就是希望W的大部分元素都是0。換句話說,就是讓參數W是稀疏的。稀疏矩陣、稀疏編碼、稀疏網絡可是機器學習中大火的概念哦。稀疏規則化一個最吸引人的特性是特征的自動選擇,自動去掉沒有資訊的特性(把這些特征對應的權重置為0)。

L1範數: 向量中各個元素絕對值之和,論文中集萬千寵愛的稀疏規則算子(Lasso regularization)。L1範數會使權值稀疏。L1範數和L0範數可以實作稀疏,L1範數因具有比L0範數更好的優化求解特性而被廣泛應用。

L2 範數稱為歐幾裡得範數。L2 範數的經典特性是權值衰減(Weight Decay)。在回歸算法中,使用L2 範數的回歸稱為嶺回歸(Ridge Regression)。L2範數可以限制模型空間,進而在一定程度上避免了過拟合。從學習理論的角度來說,L2範數可以防止過拟合,提升模型的泛化能力。

4 特征分解

我們通過分解質因數可以發現部分整數的内在性質,同樣我們通過矩陣分解可以發現組成矩陣的數字元素的性質。特征分解将矩陣分解成一組特征向量和特征值。

5 奇異值分解

奇異值分解顧名思義,将矩陣分解為奇異向量和奇異值。通過奇異值分解我們會得到與特征分解相同類型的資訊。

系列文章

  • 機器學習原理與實踐(開源圖書)-總目錄
  • 深度學習原理與實踐(開源圖書)-總目錄
  • Github: 機器學習&深度學習理論與實踐(開源圖書)

參考文獻

  • [1] Ian Goodfellow, Yoshua Bengio. Deep Learning. MIT Press. 2016.
  • [2] 焦李成等. 深度學習、優化與識别. 清華大學出版社. 2017.
  • [3] 佩德羅·多明戈斯. 終極算法-機器學習和人工智能如何重塑世界. 中信出版社. 2018.
  • [4] 雷.庫茲韋爾. 人工智能的未來-揭示人類思維的奧秘. 浙江人民出版社. 2016.

繼續閱讀