一、線性代數
1.1 标量、向量、矩陣和張量
标量:一個單獨的數
向量:一列數,一維數組
矩陣:二維數組
張量:超過二維的數組
轉置:以對角線為軸的鏡像。
1.2 矩陣和向量相乘
矩陣乘法:兩個矩陣A和B的矩陣乘積(matrix product)是第三個矩陣 C。為了使乘法定義良好,矩陣 A 的列數必須和矩陣 B 的行數相等。如果矩陣 A 的形狀是 m × n,矩陣 B 的形狀是 n × p,那麼矩陣C 的形狀是 m × p
點積:
1.3 機關矩陣和逆矩陣
機關矩陣:所有沿主對角線的元素都是 1,而所有其他位置的元素都是0,計作:
逆矩陣:
求逆矩陣的條件:
矩陣A必須是一個 方陣(square),即 m = n,并且所有列向量都是線性無關的。一個列向量線性相關的方陣被稱為奇異的(singular)。
1.4 範數
L 2 範數:當 p = 2 時,L2 範數被稱為 歐幾裡得範數(Euclidean norm)。它表示從原點出發到向量 x 确定的點的歐幾裡得距離。L2 範數在機器學習中出現地十分頻繁,經常簡化表示為 ∥x∥,略去了下标 2。平方 L 2 範數也經常用來衡量向量的大小.
L 1 範數:當機器學習問題中零和非零元素之間的差異非常重要時,通常會使用 L 1 範數
Frobenius 範數:有時候我們可能也希望衡量矩陣的大小。
1.5 特殊類型的矩陣和向量
對角矩陣:隻在主對角線上含有非零元素,其他位置都是零。用 diag(v) 表示一個對角元素由向量 v 中元素給定的對角方陣。
對稱矩陣:轉置和自己相等的矩陣
機關向量:具有 機關範數(unit norm)的向量
正交:如果
= 0,那麼向量 x 和向量 y 互相 正交(orthogonal)
标準正交:如果這些向量不僅互相正交,并且範數都為 1,那麼我們稱它們是标準正交
正交矩陣:行向量和列向量是分别标準正交的方陣
1.6 特征分解
特征分解:将方陣分解成一組特征向量和特征值.
1.7 奇異值分解
将矩陣 A 分解成三個矩陣的乘積,假設 A 是一個 m × n 的矩陣,那麼 U 是一個 m × m 的矩陣,D 是一個 m × n
的矩陣,V 是一個 n × n 矩陣。
對角矩陣 D 對角線上的元素被稱為矩陣 A 的 奇異值(singular value)。矩陣U 的列向量被稱為 左奇異向量(left singular vector),矩陣 V 的列向量被稱 右奇異向量(right singular vector)。
1.8 僞逆
其中,矩陣 U,D 和 V 是矩陣 A奇異值分解後得到的矩陣。對角矩陣 D 的僞逆D + 是其非零元素取倒數之後再轉置得到的。
當矩陣 A 的列數多于行數時
1.9 迹運算
迹運算傳回的是矩陣對角元素的和
1.10 行列式
行列式,記作 det(A),是一個将方陣 A 映射到實數的函數。行列式等于矩陣特征值的乘積。行列式的絕對值可以用來衡量矩陣參與矩陣乘法後空間擴大或者縮小了多少。
二 機率論及資訊論
我們使用機率論來量化不确定性.
2.1 随機變量
随機變量(random variable)是可以随機地取不同值的變量。
2.2 機率分布
機率分布(probability distribution)用來描述随機變量或一簇随機變量在每一
個可能取到的狀态的可能性大小。
2.3 邊緣機率
離散:
連續:
3.5 條件機率
3.6 條件機率的鍊式法則
3.7 獨立性和條件獨立性
互相獨立:
條件獨立:
3.8 期望、方差和協方差
期 望:
離散型:
連續型:
方差
協方差:
3.9 常用機率分布
高斯分布:
3.10 常用函數的有用性質
logistic sigmoid
softplus 函數
3.11 貝葉斯規則
3.13 資訊論
資訊論是應用數學的一個分支,主要研究的是對一個信号包含資訊的多少進行量化。資訊論的基本想法是一個不太可能的事件居然發生了,要比一個非常可能的事件發生,能提供更多的資訊。我們想要通過這種基本想法來量化資訊。特别地,
• 非常可能發生的事件資訊量要比較少,并且極端情況下,確定能夠發生的事件應該沒有資訊量。
• 較不可能發生的事件具有更高的資訊量。
• 獨立事件應具有增量的資訊。例如,投擲的硬币兩次正面朝上傳遞的資訊量,應該是投擲一次硬币正面朝上的資訊量的兩倍。
香農熵:
[參考資料]
<深度學習>