摘录自《深度学习入门——基于python的理论与实现》
[日]斋藤康议著,陆宇杰译
第三章
激活函数
实际上,上一章的感知机和接下来要介绍的神经网络的主要区别就在于这个激活函数。
阶跃函数的实现
简单的阶跃函数:
def step_function(x):
if x > 0:
return 1
else:
return 0
支持numpy的阶跃函数:
def step_function(x):
y = x > 0
return y.astype(np.int)
阶跃函数的图形:
import numpy as np
import matplotlib.pyplot as plt
def step_function(x):
return np.array(x>0, dtype=np.int)
x = np.arange(-5.0, 5.0, 0.1)
y = step_function(x)
plt.plot(x, y)
plt.ylim(-0.1, 1.1)
plt.show()

sigmoid函数的实现
def sigmoid(x):
return 1 / (1 + np.exp(-x))
x = np.arange(-5.0, 5.0, 0.1)
y = sigmoid(x)
plt.plot(x, y)
plt.ylim(-0.1, 1,1)
plt.show()
阶跃函数和sigmoid函数的比较
不同点:
- 平滑性的不同:
- 返回值的不同
相同点:
- 重要程度都与值的大小有关
- 取值范围相同
- 都是非线性函数
ReLU函数
神经网络很早就开始使用sigmoid函数了,而最近则主要使用ReLU函数:
ReLU函数在输入大于0时输出原值,小于等于0时输出0.
def relu(x):
return np.maximum(0, x)
x = np.arange(-5.0, 5.0, 0.1)
y = relu(x)
plt.plot(x, y)
plt.ylim(-0.1, 1,1)
plt.show()
三层神经网络的初步实现
import numpy as np
def sigmoid(x):
return 1 / (1 + np.exp(-x))
def init_network():
network = {}
network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
network['b1'] = np.array([0.1, 0.2, 0.3])
network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
network['b2'] = np.array([0.1, 0.2])
network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
network['b3'] = np.array([0.1, 0.2])
return network
def forward(network, x):
W1, W2, W3 = network['W1'], network['W2'], network['W3']
b1, b2, b3 = network['b1'], network['b2'], network['b3']
a1 = np.dot(x, W1) + b1
z1 = sigmoid(a1)
a2 = np.dot(z1, W2) + b2
z2 = sigmoid(a2)
a3 = np.dot(z2, W3) + b3
return a3
network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y)
另外,这里出现了forward(前向)一词,表示从输入到输出方向的传递处理。
=>通过巧妙地使用NumPy多维数组,我们高效的实现了神经网络。
输出层的设计
对于输出层的激活函数,一般而言回归问题用恒等函数,分类问题用softmax函数。
softmax函数
分子是输入信号的指数函数,分母是所有输入信号指数函数的总和
def softmax(a):
c = np.maximum(a)
exp_a = np.exp(a - c) # 溢出对策
sum_exp_a = np.sum(exp_a)
y = exp_a / sum_exp_a
return y