细细数算,在DL这条路上也走了有1年多了,走了很多弯路。感觉看了很多,做了很多,但是基础一直不是很牢固,所以写该博客的目的就是希望此次可以侧重从数学理论基础的角度,即要讲究通俗易懂又要能够进行数学公式的推导。
正题,本文要填的坑是Back Propagation,现在网上有各种各样的博客进行相关的介绍,所以这里没有必要再重复造轮子。主要对填坑的过程进行梳理,罗列一些比较好的文章。
1.首先需要通过图形表示的方法结合简单的例子对BP的结构体系建立直观的认识。利用计算图的方式进行表示往往更为直观。
如何直观地解释 backpropagation 算法?
2.有了以上的铺垫之后,为了检验理解加深印象,让我们动手来完成一个前向传播和反向传播梯度下降的实例计算。
一文弄懂神经网络中的反向传播法——BackPropagation
3.上面的文章缺乏数学公式的推导和证明过程,因此想要看懂花书之类的充斥着各种雅可比矩阵以及梯度等公式还是有些难度的,为了是你可以无阻碍的看懂相关文献,因此很有必要祭出第三篇文章。
反向传播算法(过程及公式推导)
这一部分是关键,因此有必要进行总结。
对于一般前馈神经网络的结构如下图所示:
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnLzQDN2ETMzMTM4IjMwkTMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
为了方便描述公式,定义如下符号
L : 神 经 网 络 的 最 大 层 数 , 即 对 应 输 出 层 L:神经网络的最大层数,即对应输出层 L:神经网络的最大层数,即对应输出层
w j k l : 第 l − 1 层 中 第 k 个 神 经 元 连 接 到 第 l 层 中 第 j 个 神 经 元 之 间 连 接 的 权 重 w^l_{jk}:第l-1层中第k个神经元连接到第l层中第j个神经元之间连接的权重 wjkl:第l−1层中第k个神经元连接到第l层中第j个神经元之间连接的权重
b j l : 第 l 层 第 j 个 神 经 元 的 偏 置 b^l_j:第l层第j个神经元的偏置 bjl:第l层第j个神经元的偏置
a j l : 第 l 层 中 第 j 个 神 经 元 的 输 出 a^l_j:第l层中第j个神经元的输出 ajl:第l层中第j个神经元的输出
a j l = σ ( ∑ k w j k l a k l − 1 + b j l ) a^l_j=\sigma(\sum_k{w^l_{jk}a^{l-1}_k+b^l_j}) ajl=σ(∑kwjklakl−1+bjl)
z j l = ∑ k w j k l a k l − 1 + b j l z^l_j=\sum_k{w^l_{jk}a^{l-1}_k+b^l_j} zjl=∑kwjklakl−1+bjl
C : 模 型 最 终 的 代 价 函 数 , 衡 量 模 型 输 出 与 t a r g e t 之 间 的 偏 差 C:模型最终的代价函数,衡量模型输出与target之间的偏差 C:模型最终的代价函数,衡量模型输出与target之间的偏差
将第l层第j个神经元的输出的预测值与实际值的误差误差定义为:
δ j l = ∂ C ∂ z j l \delta^l_j=\frac{\partial C}{\partial z^l_j} δjl=∂zjl∂C
对于代价函数可以用以下公式进行表示:
δ L = ∇ a C ⊙ σ ′ ( z L ) ( 公 式 1 ) \delta^L=\nabla_aC\odot\sigma'(z^L) \ \ \ \ (公式1) δL=∇aC⊙σ′(zL) (公式1)
δ l = ( ( w l + 1 ) T δ l + 1 ) ⊙ σ ′ ( z l ) ( 公 式 2 ) \delta^l=((w^{l+1})^T\delta^{l+1})\odot\sigma'(z^l)\ \ \ \ (公式2) δl=((wl+1)Tδl+1)⊙σ′(zl) (公式2)
∂ C ∂ b j l = δ j l ( 公 式 3 ) \frac{\partial C}{\partial b^l_j}=\delta^l_j\ \ \ \ (公式3) ∂bjl∂C=δjl (公式3)
∂ C ∂ w j k l = a k l − 1 δ j l ( 公 式 4 ) \frac{\partial C}{\partial w^l_{jk}}=a^{l-1}_k\delta^l_j\ \ \ \ (公式4) ∂wjkl∂C=akl−1δjl (公式4)
其中做以下说明:
公式1其实就是损失函数C对第L层即输出层输出向量 a a a的偏导,这里可以看成是标量对向量求偏导,利用标量对向量求导性质: d σ ( x ) = σ ′ ( x ) ⊙ d x d\sigma(x)=\sigma'(x)\odot dx dσ(x)=σ′(x)⊙dx可得公式1。
公式2,将公式1中的L一般化为神经网络中的每一层。
公式3,由于当前神经元输出对偏置项求偏导=1,所以 ∂ C ∂ b j l = δ j l \frac{\partial C}{\partial b^l_j}=\delta^l_j ∂bjl∂C=δjl
公式4,由于当前神经元输出对偏置项求偏导= a k l − 1 a^{l-1}_k akl−1,所以 ∂ C ∂ w j k l = a k l − 1 δ j l \frac{\partial C}{\partial w^l_{jk}}=a^{l-1}_k\delta^l_j ∂wjkl∂C=akl−1δjl
4.最后为了避免纸上谈兵,让我们操练起来。just coding!
#coding:utf-8
import random
import math
#
# 参数解释:
# "pd_" :偏导的前缀
# "d_" :导数的前缀
# "w_ho" :隐含层到输出层的权重系数索引
# "w_ih" :输入层到隐含层的权重系数的索引
class NeuralNetwork:
LEARNING_RATE = 0.5
def __init__(self, num_inputs, num_hidden, num_outputs, hidden_layer_weights = None, hidden_layer_bias = None, output_layer_weights = None, output_layer_bias = None):
self.num_inputs = num_inputs
self.hidden_layer = NeuronLayer(num_hidden, hidden_layer_bias)
self.output_layer = NeuronLayer(num_outputs, output_layer_bias)
self.init_weights_from_inputs_to_hidden_layer_neurons(hidden_layer_weights)
self.init_weights_from_hidden_layer_neurons_to_output_layer_neurons(output_layer_weights)
def init_weights_from_inputs_to_hidden_layer_neurons(self, hidden_layer_weights):
weight_num = 0
for h in range(len(self.hidden_layer.neurons)):
for i in range(self.num_inputs):
if not hidden_layer_weights:
self.hidden_layer.neurons[h].weights.append(random.random())
else:
self.hidden_layer.neurons[h].weights.append(hidden_layer_weights[weight_num])
weight_num += 1
def init_weights_from_hidden_layer_neurons_to_output_layer_neurons(self, output_layer_weights):
weight_num = 0
for o in range(len(self.output_layer.neurons)):
for h in range(len(self.hidden_layer.neurons)):
if not output_layer_weights:
self.output_layer.neurons[o].weights.append(random.random())
else:
self.output_layer.neurons[o].weights.append(output_layer_weights[weight_num])
weight_num += 1
def inspect(self):
print('------')
print('* Inputs: {}'.format(self.num_inputs))
print('------')
print('Hidden Layer')
self.hidden_layer.inspect()
print('------')
print('* Output Layer')
self.output_layer.inspect()
print('------')
def feed_forward(self, inputs):
hidden_layer_outputs = self.hidden_layer.feed_forward(inputs)
return self.output_layer.feed_forward(hidden_layer_outputs)
def train(self, training_inputs, training_outputs):
self.feed_forward(training_inputs)
# 1. 输出神经元的值
pd_errors_wrt_output_neuron_total_net_input = [0] * len(self.output_layer.neurons)
for o in range(len(self.output_layer.neurons)):
# ∂E/∂zⱼ
pd_errors_wrt_output_neuron_total_net_input[o] = self.output_layer.neurons[o].calculate_pd_error_wrt_total_net_input(training_outputs[o])
# 2. 隐含层神经元的值
pd_errors_wrt_hidden_neuron_total_net_input = [0] * len(self.hidden_layer.neurons)
for h in range(len(self.hidden_layer.neurons)):
# dE/dyⱼ = Σ ∂E/∂zⱼ * ∂z/∂yⱼ = Σ ∂E/∂zⱼ * wᵢⱼ
d_error_wrt_hidden_neuron_output = 0
for o in range(len(self.output_layer.neurons)):
d_error_wrt_hidden_neuron_output += pd_errors_wrt_output_neuron_total_net_input[o] * self.output_layer.neurons[o].weights[h]
# ∂E/∂zⱼ = dE/dyⱼ * ∂zⱼ/∂
pd_errors_wrt_hidden_neuron_total_net_input[h] = d_error_wrt_hidden_neuron_output * self.hidden_layer.neurons[h].calculate_pd_total_net_input_wrt_input()
# 3. 更新输出层权重系数
for o in range(len(self.output_layer.neurons)):
for w_ho in range(len(self.output_layer.neurons[o].weights)):
# ∂Eⱼ/∂wᵢⱼ = ∂E/∂zⱼ * ∂zⱼ/∂wᵢⱼ
pd_error_wrt_weight = pd_errors_wrt_output_neuron_total_net_input[o] * self.output_layer.neurons[o].calculate_pd_total_net_input_wrt_weight(w_ho)
# Δw = α * ∂Eⱼ/∂wᵢ
self.output_layer.neurons[o].weights[w_ho] -= self.LEARNING_RATE * pd_error_wrt_weight
# 4. 更新隐含层的权重系数
for h in range(len(self.hidden_layer.neurons)):
for w_ih in range(len(self.hidden_layer.neurons[h].weights)):
# ∂Eⱼ/∂wᵢ = ∂E/∂zⱼ * ∂zⱼ/∂wᵢ
pd_error_wrt_weight = pd_errors_wrt_hidden_neuron_total_net_input[h] * self.hidden_layer.neurons[h].calculate_pd_total_net_input_wrt_weight(w_ih)
# Δw = α * ∂Eⱼ/∂wᵢ
self.hidden_layer.neurons[h].weights[w_ih] -= self.LEARNING_RATE * pd_error_wrt_weight
def calculate_total_error(self, training_sets):
total_error = 0
for t in range(len(training_sets)):
training_inputs, training_outputs = training_sets[t]
self.feed_forward(training_inputs)
for o in range(len(training_outputs)):
total_error += self.output_layer.neurons[o].calculate_error(training_outputs[o])
return total_error
class NeuronLayer:
def __init__(self, num_neurons, bias):
# 同一层的神经元共享一个截距项b
self.bias = bias if bias else random.random()
self.neurons = []
for i in range(num_neurons):
self.neurons.append(Neuron(self.bias))
def inspect(self):
print('Neurons:', len(self.neurons))
for n in range(len(self.neurons)):
print(' Neuron', n)
for w in range(len(self.neurons[n].weights)):
print(' Weight:', self.neurons[n].weights[w])
print(' Bias:', self.bias)
def feed_forward(self, inputs):
outputs = []
for neuron in self.neurons:
outputs.append(neuron.calculate_output(inputs))
return outputs
def get_outputs(self):
outputs = []
for neuron in self.neurons:
outputs.append(neuron.output)
return outputs
class Neuron:
def __init__(self, bias):
self.bias = bias
self.weights = []
def calculate_output(self, inputs):
self.inputs = inputs
self.output = self.squash(self.calculate_total_net_input())
return self.output
def calculate_total_net_input(self):
total = 0
for i in range(len(self.inputs)):
total += self.inputs[i] * self.weights[i]
return total + self.bias
# 激活函数sigmoid
def squash(self, total_net_input):
return 1 / (1 + math.exp(-total_net_input))
def calculate_pd_error_wrt_total_net_input(self, target_output):
return self.calculate_pd_error_wrt_output(target_output) * self.calculate_pd_total_net_input_wrt_input();
# 每一个神经元的误差是由平方差公式计算的
def calculate_error(self, target_output):
return 0.5 * (target_output - self.output) ** 2
def calculate_pd_error_wrt_output(self, target_output):
return -(target_output - self.output)
def calculate_pd_total_net_input_wrt_input(self):
return self.output * (1 - self.output)
def calculate_pd_total_net_input_wrt_weight(self, index):
return self.inputs[index]
# 文中的例子:
nn = NeuralNetwork(2, 2, 2, hidden_layer_weights=[0.15, 0.2, 0.25, 0.3], hidden_layer_bias=0.35, output_layer_weights=[0.4, 0.45, 0.5, 0.55], output_layer_bias=0.6)
for i in range(10000):
nn.train([0.05, 0.1], [0.01, 0.09])
print(i, round(nn.calculate_total_error([[[0.05, 0.1], [0.01, 0.09]]]), 9))
#另外一个例子,可以把上面的例子注释掉再运行一下:
# training_sets = [
# [[0, 0], [0]],
# [[0, 1], [1]],
# [[1, 0], [1]],
# [[1, 1], [0]]
# ]
# nn = NeuralNetwork(len(training_sets[0][0]), 5, len(training_sets[0][1]))
# for i in range(10000):
# training_inputs, training_outputs = random.choice(training_sets)
# nn.train(training_inputs, training_outputs)
# print(i, nn.calculate_total_error(training_sets))
经过10000次的迭代,loss的变化如下图所示:
参考文章:
http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html