矩阵求导

关于矩阵求导，其实严格意义上来说仅仅只是一种求导的矩阵表示形式，其本质还是和普通多元函数求导过程是一致的。将矩阵的各个元素拆分开来，将矩阵运算写成各个元素之间的运算，矩阵变换可以变成多元函数，这样矩阵求导过程就可以与多元函数求导过程联系起来了。要理解矩阵求导运算，最主要的其实是理解矩阵导数的表示，将矩阵导数的拆分形式与多元函数求导联系起来。

本文主要参考《Matrix cookbook》和wiki上面的内容，下面简单介绍一下矩阵求导的相关内容，为后面介绍前馈神经网络FNN的反向传播过程做铺垫。

矩阵求导的表示形式之一：值函数对向量/矩阵变量的导数

下面表达式中， y y 表示一个实值函数，xx表示一个向量变量，那么他们的矩阵求导含义为：

∂y∂x=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂y∂x1∂y∂x2⋯∂y∂xn⎤⎦⎥⎥⎥⎥⎥⎥⎥ ∂ y ∂ x = [ ∂ y ∂ x 1 ∂ y ∂ x 2 ⋯ ∂ y ∂ x n ]

y y 表示一个实值函数，XX表示一个矩阵变量：

∂y∂X=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂y∂x11∂y∂x21⋯∂y∂xp1∂y∂x12∂y∂x22⋯∂y∂xp2⋯⋯⋯⋯∂y∂x1q∂y∂x2q⋯∂y∂xpq⎤⎦⎥⎥⎥⎥⎥⎥⎥ ∂ y ∂ X = [ ∂ y ∂ x 11 ∂ y ∂ x 12 ⋯ ∂ y ∂ x 1 q ∂ y ∂ x 21 ∂ y ∂ x 22 ⋯ ∂ y ∂ x 2 q ⋯ ⋯ ⋯ ⋯ ∂ y ∂ x p 1 ∂ y ∂ x p 2 ⋯ ∂ y ∂ x p q ]

上面给出了矩阵求导的表示形式的具体含义，很容易理解。下面给出几个例子， a a 是实数，ββ和 x x 是向量， A A 、 B B 和 C C 是与 x x 无关的矩阵：

∂βTx∂x=β ∂ β T x ∂ x = β

∂xTx∂x=x ∂ x T x ∂ x = x

∂xTAx∂x=(A+AT)x ∂ x T A x ∂ x = ( A + A T ) x

如果你能发现这三个式子左边的分子都是一个数，分母都是一个向量，那么你应该很容易理解这几个等式。是在不能理解就自己把左右两边的矩阵运算拆分开来，然后使用多元函数求导的过程将左右两边分别表示出来就行了。以第一个为例：

βTx=∑i=1nβixi β T x = ∑ i = 1 n β i x i

∂βTx∂x=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂βTx∂x1∂βTx∂x2⋯∂βTx∂xn⎤⎦⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂∑ni=1βixi∂x1∂∑ni=1βixi∂x2⋯∂∑ni=1βixi∂xn⎤⎦⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢β1β2⋯βn⎤⎦⎥⎥⎥=β ∂ β T x ∂ x = [ ∂ β T x ∂ x 1 ∂ β T x ∂ x 2 ⋯ ∂ β T x ∂ x n ] = [ ∂ ∑ i = 1 n β i x i ∂ x 1 ∂ ∑ i = 1 n β i x i ∂ x 2 ⋯ ∂ ∑ i = 1 n β i x i ∂ x n ] = [ β 1 β 2 ⋯ β n ] = β

这样就能很清楚的理解矩阵矩阵求导的表示形式的具体含义了。

矩阵求导的表示形式之二：向量函数对值/向量/矩阵变量的导数

下面表达式中， y y 表示一个向量函数， x x 表示一个值变量，那么他们的矩阵求导含义为：

∂y∂x=⎡⎣⎢⎢⎢⎢⎢⎢∂y1∂x∂y2∂x⋯∂yn∂x⎤⎦⎥⎥⎥⎥⎥⎥∂y∂x=[∂y1∂x∂y2∂x⋯∂yn∂x]

接下来是向量函数 y y 对向量变量 x x 的导数含义为：

∂y∂x=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂y1∂x1∂y2∂x2⋯∂ym∂xn∂y1∂x2∂y2∂x2⋯∂ym∂x2⋯⋯⋯⋯∂y1∂xn∂y2∂xn⋯∂ym∂xn⎤⎦⎥⎥⎥⎥⎥⎥⎥ ∂ y ∂ x = [ ∂ y 1 ∂ x 1 ∂ y 1 ∂ x 2 ⋯ ∂ y 1 ∂ x n ∂ y 2 ∂ x 2 ∂ y 2 ∂ x 2 ⋯ ∂ y 2 ∂ x n ⋯ ⋯ ⋯ ⋯ ∂ y m ∂ x n ∂ y m ∂ x 2 ⋯ ∂ y m ∂ x n ]

以一个最为简单的例子为例：

y=Wx y = W x

那么：

∂y∂x=W ∂ y ∂ x = W

最后向量函数 y y 对矩阵变量 W W 的导数是一个张量，具体形状为：

∂y∂W=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂y1∂W11∂y1∂W21⋯∂y1∂Wm1∂y1∂W12∂y1∂W22⋯∂y1∂Wm2⋯⋯⋯⋯∂y1∂W2n∂y1∂W2n⋯∂y1∂Wmn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢⎢⎢⎢∂y2∂W11∂y2∂W21⋯∂y2∂Wm1∂y2∂W12∂y2∂W22⋯∂y2∂Wm2⋯⋯⋯⋯∂y2∂W2n∂y2∂W2n⋯∂y2∂Wmn⎤⎦⎥⎥⎥⎥⎥⎥⎥⋯⎡⎣⎢⎢⎢⎢⎢⎢⎢∂yk∂W11∂yk∂W21⋯∂yk∂Wm1∂yk∂W12∂yk∂W22⋯∂yk∂Wm2⋯⋯⋯⋯∂yk∂W2n∂yk∂W2n⋯∂yk∂Wmn⎤⎦⎥⎥⎥⎥⎥⎥⎥ ∂ y ∂ W = [ ∂ y 1 ∂ W 11 ∂ y 1 ∂ W 12 ⋯ ∂ y 1 ∂ W 2 n ∂ y 1 ∂ W 21 ∂ y 1 ∂ W 22 ⋯ ∂ y 1 ∂ W 2 n ⋯ ⋯ ⋯ ⋯ ∂ y 1 ∂ W m 1 ∂ y 1 ∂ W m 2 ⋯ ∂ y 1 ∂ W m n ] [ ∂ y 2 ∂ W 11 ∂ y 2 ∂ W 12 ⋯ ∂ y 2 ∂ W 2 n ∂ y 2 ∂ W 21 ∂ y 2 ∂ W 22 ⋯ ∂ y 2 ∂ W 2 n ⋯ ⋯ ⋯ ⋯ ∂ y 2 ∂ W m 1 ∂ y 2 ∂ W m 2 ⋯ ∂ y 2 ∂ W m n ] ⋯ [ ∂ y k ∂ W 11 ∂ y k ∂ W 12 ⋯ ∂ y k ∂ W 2 n ∂ y k ∂ W 21 ∂ y k ∂ W 22 ⋯ ∂ y k ∂ W 2 n ⋯ ⋯ ⋯ ⋯ ∂ y k ∂ W m 1 ∂ y k ∂ W m 2 ⋯ ∂ y k ∂ W m n ]

同样举出一个例子说明这个形式的含义： l=f(y) l = f ( y ) 其中， y y 为 m m 维向量，然后y=Wxy=Wx， W W 为 m∗n m ∗ n 的矩阵， x x 为 n n 维向量。然后∂l∂y∂l∂y为 m m 维向量，∂y∂W∂y∂W为 m∗m∗n m ∗ m ∗ n 维张量，最后根据链式法则有 ∂l∂W=∂l∂y∂y∂W ∂ l ∂ W = ∂ l ∂ y ∂ y ∂ W ，很显然最后的结果 ∂l∂W ∂ l ∂ W 应该是一个 m∗n m ∗ n 为的矩阵，而等式另外边为 m m 维向量乘上m∗m∗nm∗m∗n维张量，其结果为 m∗n m ∗ n 维矩阵。将这个过程拆开来看：

∂y∂W=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂y∂W11∂y∂W21⋯∂y∂Wm1∂y∂W12∂y∂W22⋯∂y∂Wm2⋯⋯⋯⋯∂y∂W1n∂y∂W2n⋯∂y∂Wmn⎤⎦⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢∑mi=1∂l∂y1∂y1∂W11∑mi=1∂l∂y1∂y1∂W21⋯∑mi=1∂l∂y1∂y1∂Wm1∑mi=1∂l∂y1∂y1∂W12∑mi=1∂l∂y1∂y1∂W22⋯∑mi=1∂l∂y1∂y1∂Wm2⋯⋯⋯⋯∑mi=1∂l∂y1∂y1∂W1n∑mi=1∂l∂y1∂y1∂W2n⋯∑mi=1∂l∂y1∂y1∂Wmn⎤⎦⎥⎥⎥⎥⎥⎥⎥ ∂ y ∂ W = [ ∂ y ∂ W 11 ∂ y ∂ W 12 ⋯ ∂ y ∂ W 1 n ∂ y ∂ W 21 ∂ y ∂ W 22 ⋯ ∂ y ∂ W 2 n ⋯ ⋯ ⋯ ⋯ ∂ y ∂ W m 1 ∂ y ∂ W m 2 ⋯ ∂ y ∂ W m n ] = [ ∑ i = 1 m ∂ l ∂ y 1 ∂ y 1 ∂ W 11 ∑ i = 1 m ∂ l ∂ y 1 ∂ y 1 ∂ W 12 ⋯ ∑ i = 1 m ∂ l ∂ y 1 ∂ y 1 ∂ W 1 n ∑ i = 1 m ∂ l ∂ y 1 ∂ y 1 ∂ W 21 ∑ i = 1 m ∂ l ∂ y 1 ∂ y 1 ∂ W 22 ⋯ ∑ i = 1 m ∂ l ∂ y 1 ∂ y 1 ∂ W 2 n ⋯ ⋯ ⋯ ⋯ ∑ i = 1 m ∂ l ∂ y 1 ∂ y 1 ∂ W m 1 ∑ i = 1 m ∂ l ∂ y 1 ∂ y 1 ∂ W m 2 ⋯ ∑ i = 1 m ∂ l ∂ y 1 ∂ y 1 ∂ W m n ]

矩阵求导的表示形式之三：矩阵函数对值/向量/矩阵变量的导数

首先矩阵函数 Y Y 对值变量 x x 的导数含义为：

∂Y∂x=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂y11∂x∂y21∂x⋯∂yp1∂x∂y12∂x∂y22∂x⋯∂yp2∂x⋯⋯⋯⋯∂y1q∂x∂y2q∂x⋯∂ypq∂x⎤⎦⎥⎥⎥⎥⎥⎥⎥∂Y∂x=[∂y11∂x∂y12∂x⋯∂y1q∂x∂y21∂x∂y22∂x⋯∂y2q∂x⋯⋯⋯⋯∂yp1∂x∂yp2∂x⋯∂ypq∂x]

这个也很容易理解，然后矩阵函数对向量变量的导数是形式上是一个张量，矩阵函数对矩阵变量的导数是一个四阶张量。

这些导数的形式很少用到，但实际上本质还是一样的：矩阵求导本质上是多元函数求导的矩阵表示形式，其函数由矩阵运算定义，其导数形式是为了同样满足矩阵运算而定义的。还是那句话，如果不理解矩阵求导过程，直接把矩阵运算转化成基本的多元函数运算，用多元函数求导方法写出其形式就很容易理解了。

当然，上面几个仅仅是非常简单的矩阵求导，更复杂的涉及到求迹（对角线上元素的和） tr(A) t r ( A ) 、行列式 det(A) d e t ( A ) 等就需要去参照《Matrix Cookbook》中的内容自行理解了。了解到上面的内容已经足够让我们来理解神经网络的反向传播了。

神经网络反向传播

讲到神经网络的反向传播首先不得不提一下求导的链式法则：实际上神经网络本质上可以说是一堆向量操作加上激活函数，也可以说是一堆线性函数操作加上激活函数，整个过程最终都可以展开成一个无比大的函数。为了比较好表述神经网络的每一层的正向计算以及反向传播，才表述为矩阵计算与链式法则计算梯度，其本质还是非常简单的多元函数求导。

链式法则

链式法则是多元函数求导基本，通常意义上的链式法则表述如下：

z=f(x,y)x=g(u,v)y=h(u,v) z = f ( x , y ) x = g ( u , v ) y = h ( u , v )

那么就有：

∂z∂u=∂z∂x∂x∂u+∂z∂y∂y∂u∂z∂v=∂z∂x∂x∂v+∂z∂y∂y∂v ∂ z ∂ u = ∂ z ∂ x ∂ x ∂ u + ∂ z ∂ y ∂ y ∂ u ∂ z ∂ v = ∂ z ∂ x ∂ x ∂ v + ∂ z ∂ y ∂ y ∂ v

这个看起来是不是很简单，理解偏导和梯度的含义就应该很容易理解这个过程。那么接下来，重头戏来了：上面过程中 y y 可以是xx的函数，甚至可以是 x x 。来我们先举一个简单的例子来看：

z=xxx=u+vz=xxx=u+v

对于这样一个例子，我们先把上面式子中指数项的 x x 记做yy，那么上面的式子就转化为：

z=xyx=u+vy=u+v z = x y x = u + v y = u + v

接下来我们来根据链式法则来求导：

∂z∂u=∂z∂x∂x∂u+∂z∂y∂y∂u=yxy−1∂x∂u+xyln(x)∂y∂u=(u+v)u+v+(u+v)u+vln(u+v) ∂ z ∂ u = ∂ z ∂ x ∂ x ∂ u + ∂ z ∂ y ∂ y ∂ u = y x y − 1 ∂ x ∂ u + x y l n ( x ) ∂ y ∂ u = ( u + v ) u + v + ( u + v ) u + v l n ( u + v )

∂z∂v=∂z∂x∂x∂v+∂z∂y∂y∂v=yxy−1∂x∂v+xyln(x)∂y∂v=(u+v)u+v+(u+v)u+vln(u+v) ∂ z ∂ v = ∂ z ∂ x ∂ x ∂ v + ∂ z ∂ y ∂ y ∂ v = y x y − 1 ∂ x ∂ v + x y l n ( x ) ∂ y ∂ v = ( u + v ) u + v + ( u + v ) u + v l n ( u + v )

额，是不是很神奇： dxxdx=xx+xxln(x) d x x d x = x x + x x l n ( x ) 这个式子也可以通过将两个 x x 看做不同的xx分别求偏导然后求全微分而得到其导数，当且仅当原函数可微时才能这样做。

好吧，上面这些内容其实是一些题外话，我们真正需要了解的是：在矩阵操作中，我们可以把例如 y=Wx+b y = W x + b 这样的矩阵操作看做是多元函数

全连接层的反向传播

一层全连接层的神经网络的本质是一个 output=f(input) o u t p u t = f ( i n p u t ) 的多元函数，例如一般来说一层全连接以 x x 表示输入向量， y y 表示输出向量，那么一层全连接神经网络可数学表示为：

y=σ(Wx+b) y = σ ( W x + b )

其中 W W 和 b b 是参数，前者是映射矩阵，后者是偏置向量， σ σ 表示激活函数，这是一个数值函数，也就是对矩阵/向量中的每一个值做这样一个函数映射，常用的激活函数有如下几种：

sigmoid激活函数： y=11+e−x y = 1 1 + e − x

sigmoid激活函数的导数：

y′=(11+e−x)′=e−x(1+e−x)2=1+e−x−1(1+e−x)2=11+e−x(1−11+e−x)=y(1−y) y ′ = ( 1 1 + e − x ) ′ = e − x ( 1 + e − x ) 2 = 1 + e − x − 1 ( 1 + e − x ) 2 = 1 1 + e − x ( 1 − 1 1 + e − x ) = y ( 1 − y )

tanh激活函数： y=ex−e−xex+e−x y = e x − e − x e x + e − x

tanh激活函数的导数：

y′=(ex−e−xex+e−x)′=(ex+e−x)2−(ex−e−x)2(ex+e−x)2=1−(ex−e−x)2(ex+e−x)2=1−y2 y ′ = ( e x − e − x e x + e − x ) ′ = ( e x + e − x ) 2 − ( e x − e − x ) 2 ( e x + e − x ) 2 = 1 − ( e x − e − x ) 2 ( e x + e − x ) 2 = 1 − y 2

relu激活函数： y={x,0,x>0x<=0 y = { x , x > 0 0 , x <= 0

relu激活函数的导数：

y′={1,0,x>0x<=0 y ′ = { 1 , x > 0 0 , x <= 0

从上面这三种常用激活函数的导数可以看出，激活函数反向求导都非常简单直接。然后，我们将从两种角度来给出全连接层反向传播的导数：矩阵形式和多元函数形式。

全连接层的反向传播的矩阵形式

神经网络反向传播时，我们已知的是 ∂l∂y ∂ l ∂ y ，也就是前面层传过来的 loss l o s s 对于当前层输出的梯度，然后一方面我们需要知道 loss l o s s 对于参数的梯度 ∂l∂W ∂ l ∂ W 和 ∂l∂b ∂ l ∂ b ，而另一方面我们也需要知道 loss l o s s 对于输入的梯度 ∂l∂x ∂ l ∂ x ，以便于参数向前面层传播，更新前面层的参数。假设我们以 sigmoid s i g m o i d 函数作为激活函数：

y=σ(Wx+b) y = σ ( W x + b )

利用链式法则我们有：

∂l∂W=∂l∂y∂y∂(Wx+b)∂(Wx+b)∂W=∂l∂y∘(y∘(1−y))xT ∂ l ∂ W = ∂ l ∂ y ∂ y ∂ ( W x + b ) ∂ ( W x + b ) ∂ W = ∂ l ∂ y ∘ ( y ∘ ( 1 − y ) ) x T

∂l∂b=∂l∂y∂y∂(Wx+b)∂(Wx+b)∂b=∂l∂y∘(y∘(1−y)) ∂ l ∂ b = ∂ l ∂ y ∂ y ∂ ( W x + b ) ∂ ( W x + b ) ∂ b = ∂ l ∂ y ∘ ( y ∘ ( 1 − y ) )

∂l∂x=∂l∂y∂y∂(Wx+b)∂(Wx+b)∂x=∂l∂y∘(y∘(1−y))W ∂ l ∂ x = ∂ l ∂ y ∂ y ∂ ( W x + b ) ∂ ( W x + b ) ∂ x = ∂ l ∂ y ∘ ( y ∘ ( 1 − y ) ) W

其中 ∘ ∘ 表示矩阵对应值相乘。

全连接层的反向传播的多元函数形式

接下来给出全连接层的多元函数形式：

y=σ(Wx+b) y = σ ( W x + b )

记 y=⎡⎣⎢⎢⎢y1y2⋯ym⎤⎦⎥⎥⎥ y = [ y 1 y 2 ⋯ y m ]

则有：

yi=σ(∑j=1nWijxj+bi),i=1,2,...,m y i = σ ( ∑ j = 1 n W i j x j + b i ) , i = 1 , 2 , . . . , m

那么有：( Wij W i j 只影响 yi y i ， bi b i 只影响 yi y i 。)

∂l∂Wij=∂l∂yiyi(1−yi)xj,i=1,2,...,m,j=1,2,...n ∂ l ∂ W i j = ∂ l ∂ y i y i ( 1 − y i ) x j , i = 1 , 2 , . . . , m , j = 1 , 2 , . . . n

∂l∂bi=∂l∂yiyi(1−yi),i=1,2,...,m ∂ l ∂ b i = ∂ l ∂ y i y i ( 1 − y i ) , i = 1 , 2 , . . . , m

( xj x j 影响 y1,y2,...,ym y 1 , y 2 , . . . , y m )

∂l∂xj=∑i=1m∂l∂yiyi(1−yi)Wij,j=1,2,...,n ∂ l ∂ x j = ∑ i = 1 m ∂ l ∂ y i y i ( 1 − y i ) W i j , j = 1 , 2 , . . . , n

把上面的东西写进矩阵里面就有：

∂l∂W=⎡⎣⎢⎢⎢⎢⎢⎢∂l∂y1y1(1−y1)x1∂l∂y2y2(1−y2)x1⋯∂l∂ymym(1−ym)x1∂l∂y1y1(1−y1)x2∂l∂y2y2(1−y2)x2⋯∂l∂ymym(1−ym)x2⋯⋯⋯⋯∂l∂y1y1(1−y1)xn∂l∂y2y2(1−y2)xn⋯∂l∂ymym(1−ym)xn⎤⎦⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢∂l∂y1y1(1−y1)∂l∂y2y2(1−y2)⋯∂l∂ymym(1−ym)⎤⎦⎥⎥⎥⎥⎥⎥[x1x2⋯xn]=⎡⎣⎢⎢⎢⎢⎢⎢∂l∂y1∂l∂y2⋯∂l∂ym⎤⎦⎥⎥⎥⎥⎥⎥∘⎡⎣⎢⎢⎢y1y2⋯ym⎤⎦⎥⎥⎥∘⎡⎣⎢⎢⎢1−y11−y2⋯1−ym⎤⎦⎥⎥⎥[x1x2⋯xn]=∂l∂y∘(y∘(1−y))xT ∂ l ∂ W = [ ∂ l ∂ y 1 y 1 ( 1 − y 1 ) x 1 ∂ l ∂ y 1 y 1 ( 1 − y 1 ) x 2 ⋯ ∂ l ∂ y 1 y 1 ( 1 − y 1 ) x n ∂ l ∂ y 2 y 2 ( 1 − y 2 ) x 1 ∂ l ∂ y 2 y 2 ( 1 − y 2 ) x 2 ⋯ ∂ l ∂ y 2 y 2 ( 1 − y 2 ) x n ⋯ ⋯ ⋯ ⋯ ∂ l ∂ y m y m ( 1 − y m ) x 1 ∂ l ∂ y m y m ( 1 − y m ) x 2 ⋯ ∂ l ∂ y m y m ( 1 − y m ) x n ] = [ ∂ l ∂ y 1 y 1 ( 1 − y 1 ) ∂ l ∂ y 2 y 2 ( 1 − y 2 ) ⋯ ∂ l ∂ y m y m ( 1 − y m ) ] [ x 1 x 2 ⋯ x n ] = [ ∂ l ∂ y 1 ∂ l ∂ y 2 ⋯ ∂ l ∂ y m ] ∘ [ y 1 y 2 ⋯ y m ] ∘ [ 1 − y 1 1 − y 2 ⋯ 1 − y m ] [ x 1 x 2 ⋯ x n ] = ∂ l ∂ y ∘ ( y ∘ ( 1 − y ) ) x T

∂l∂b=⎡⎣⎢⎢⎢⎢⎢⎢∂l∂y1y1(1−y1)∂l∂y2y2(1−y2)⋯∂l∂ymym(1−ym)∂l∂y1y1(1−y1)∂l∂y2y2(1−y2)⋯∂l∂ymym(1−ym)⋯⋯⋯⋯∂l∂y1y1(1−y1)∂l∂y2y2(1−y2)⋯∂l∂ymym(1−ym)⎤⎦⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢∂l∂y1∂l∂y2⋯∂l∂ym⎤⎦⎥⎥⎥⎥⎥⎥∘⎡⎣⎢⎢⎢y1y2⋯ym⎤⎦⎥⎥⎥∘⎡⎣⎢⎢⎢1−y11−y2⋯1−ym⎤⎦⎥⎥⎥=∂l∂y∘(y∘(1−y)) ∂ l ∂ b = [ ∂ l ∂ y 1 y 1 ( 1 − y 1 ) ∂ l ∂ y 1 y 1 ( 1 − y 1 ) ⋯ ∂ l ∂ y 1 y 1 ( 1 − y 1 ) ∂ l ∂ y 2 y 2 ( 1 − y 2 ) ∂ l ∂ y 2 y 2 ( 1 − y 2 ) ⋯ ∂ l ∂ y 2 y 2 ( 1 − y 2 ) ⋯ ⋯ ⋯ ⋯ ∂ l ∂ y m y m ( 1 − y m ) ∂ l ∂ y m y m ( 1 − y m ) ⋯ ∂ l ∂ y m y m ( 1 − y m ) ] = [ ∂ l ∂ y 1 ∂ l ∂ y 2 ⋯ ∂ l ∂ y m ] ∘ [ y 1 y 2 ⋯ y m ] ∘ [ 1 − y 1 1 − y 2 ⋯ 1 − y m ] = ∂ l ∂ y ∘ ( y ∘ ( 1 − y ) )

∂l∂x=⎡⎣⎢⎢⎢⎢⎢⎢∑mi=1∂l∂yiyi(1−yi)Wi1∑mi=1∂l∂yiyi(1−yi)Wi2⋯∑mi=1∂l∂yiyi(1−yi)Win⎤⎦⎥⎥⎥⎥⎥⎥=[∂l∂y1y1(1−y1)∂l∂y2y2(1−y2)⋯∂l∂ymym(1−ym)]⎡⎣⎢⎢⎢W11W21⋯Wm1W12W22⋯Wm2⋯⋯⋯⋯W1nW2n⋯Wmn⎤⎦⎥⎥⎥=[∂l∂y∘(y∘(1−y))]TW ∂ l ∂ x = [ ∑ i = 1 m ∂ l ∂ y i y i ( 1 − y i ) W i 1 ∑ i = 1 m ∂ l ∂ y i y i ( 1 − y i ) W i 2 ⋯ ∑ i = 1 m ∂ l ∂ y i y i ( 1 − y i ) W i n ] = [ ∂ l ∂ y 1 y 1 ( 1 − y 1 ) ∂ l ∂ y 2 y 2 ( 1 − y 2 ) ⋯ ∂ l ∂ y m y m ( 1 − y m ) ] [ W 11 W 12 ⋯ W 1 n W 21 W 22 ⋯ W 2 n ⋯ ⋯ ⋯ ⋯ W m 1 W m 2 ⋯ W m n ] = [ ∂ l ∂ y ∘ ( y ∘ ( 1 − y ) ) ] T W

最后一个貌似转置行列有些对应不上，哈哈哈！！！

矩阵求导与神经网络反向传播矩阵求导神经网络反向传播

矩阵求导

矩阵求导的表示形式之一：值函数对向量/矩阵变量的导数

矩阵求导的表示形式之二：向量函数对值/向量/矩阵变量的导数

矩阵求导的表示形式之三：矩阵函数对值/向量/矩阵变量的导数

神经网络反向传播

链式法则

全连接层的反向传播

全连接层的反向传播的矩阵形式

全连接层的反向传播的多元函数形式

继续阅读

科普：alphago是什么

深度学习笔记——“Mastering the game of Go with deep neural networks and tree search”论文学习深度学习笔记——“Mastering the game of Go with deep neural networks and tree search”论文学习题目摘要引言

深度学习与围棋：为AlphaGo训练深度神经网络13.1.1　AlphaGo的网络架构13.1.2　AlphaGo棋盘编码器13.1.3　训练AlphaGo风格的策略网络

蚪侠-远程泛目录[泛域名+泛目录+泛内页]-[代码+汉字]干扰-字体繁简切换-蜘蛛欺骗-主动推送_镜像版-V25版

深度学习的一些小记录里面有一部分是摘录

自学记录《深度学习500问》之深度学习基础

问答机器人代码封装和对外提供接口代码封装和对外提供接口

数学建模智能优化算法之神经网络案例附Matlab代码

突破！双一流大学，首篇Nature！

PALM病理性近视预测 2021-07-04飞桨常规赛：PALM病理性近视预测 6月第3名方案一、赛题介绍

图形处理单元(GPU)的演进

CogView: Mastering Text-to-Image Generation via Transformers翻译摘要1.介绍2.方法3.Finetuning

深度学习之卷积01 卷积02 填充Padding03 步幅Stride04 卷积核的选择05 多通道卷积参考

通俗理解查准率(precision)和查全率(recall)

人工智能如何有效地运用于自然语言处理

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案