[学习笔记]BP神经网络原理以及训练步骤

神经网络由三层组成，分别是输入层，输出层和隐蔽层。根据需要，隐蔽层可以是一层，二层或者三层。一般来说，使用一层隐蔽层，以及输出层使用非线性函数已经可以适用绝大数问题。多加一层隐蔽层并不会带来结果上的明显改进，反而会加大训练的时间。

以下的公式均假设在BP网络中使用logistic激活函数，输出层也使用该激活函数。

连接的权值：相邻两层节点的单元均互相连接。即前一层中的每一个单元均和（且只和）后一层网络中的每一个单元相连接，且该权重一般初始化为[-0.1,0.1]之间的一个随机小数，用Wij表示，即前一层的节点i与后一层的节点j之间相连接的权值。

输入层：输入层的个数以及输入值的形式可以根据训练数据的形式自定义。比如当输入一个10乘以10像素的图像时，可以定义100个输入点，每个输入点对应于一个像素点的值，该值可以是经过MAX-MIN归一化后的数值。输入层的输出O即是他的输入，该层网络上不做任何计算。

隐蔽层与输出层：隐蔽层和输出层中每个节点均有一个阈值，以及一个激活函数，假设均为logistic函数。隐蔽层和输出层的净输入I均等于前一层的输出Q分别乘以相连的权值，再加上该单元的阈值，而该层的输出则是通过计算产生的，计算方法如下:

对于本层（隐蔽层或者输出层）中的单元j，它的净输入等于前一层网络中，所有单元的输出乘以该条连接权重的和，再加上单元j的阈值。故单元j的净输入可以表示为：

[学习笔记]BP神经网络原理以及训练步骤

而计算净输入之后，该层的输出等于将logistic函数作用于净输入之上，即单元j的输出为：

[学习笔记]BP神经网络原理以及训练步骤

之后，该输出继续作为下一层网络的输入处理。如果当前该层网络是输出层，则该值就是网络最后的输出值。

后向误差传播：

通过更新权值和每个单元的阈值，来修正当前的网络。

对于输出层的单元j，误差ERROR(j)用下式计算：

[学习笔记]BP神经网络原理以及训练步骤

其中，Oj是该输出单元的实际输出，而Tj则是预期输出（即样本点的实际值）。

对于隐蔽层的单元j，误差的计算方式略有所不同，该值是

[学习笔记]BP神经网络原理以及训练步骤

其中，Wkj是由下一层较高层中的单元K到单元J的连接权值，而ERR（k）是单元K的误差。

所以，当计算误差的时候，我们需要反向传播，即先计算较高层的误差，再计算前一层的误差。

计算完误差之后，需要更新权值和阈值，该权值的改变如下：

[学习笔记]BP神经网络原理以及训练步骤

（请注意下标）

参数l表示学习速率，一般也为(0,1)之间的一个小数。不过，该数不是随机产生的，而是指定的。

阈值的更新如下：

[学习笔记]BP神经网络原理以及训练步骤

网络停止训练的条件：

1前一周期的所有改变量均太小，小于某个指定的阈值；

2前一周期未正确分类的样本百分比小于某个阈值；

3超过预先指定的周期数。

经常，网络的收敛是不明显的，而且往往也不知道当前网络是否已经达到最优的状态。所以，判断是否停止迭代，往往采用一个更一般的做法：

将数据集分为3个独立的数据集，训练集，测试集，验证集，分别为原始样本的70% 15% 15%。网络的训练用训练集，每当迭代到一定次数后（比如100次），均用测试集去测试当前网络的误差和。然后，我们选取误差最小的那个网络作为我们最终的网络，而最后的验证则通过验证集去测试，即最后的测试结果。

[学习笔记]BP神经网络原理以及训练步骤

继续阅读

查找算法学习之二分查找（Python版本）——BinarySearch

人工智能如何有效地运用于自然语言处理

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

Command Network(POJ 3164)---定根最小树形图模板题题目描述输入格式输出格式输入样例输出样例分析源程序

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

C++ 第十五周报告1--《冒泡法排序》

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希