Softmax层输出&梯度推导及Python实现

2023-05-21 21:41:58

Softmax层输出&梯度推导及Python实现

详细代码在这里，存在于Layer.py中的Softmax类里面

推导

太长不看下面有结论及代码

Softmax层输出&梯度推导及Python实现

结论

约定：Input = I 输入，Output = O 输出

Softmax层的前向传播非常简单，就是输入向量的每个分量取指数，再除以所有分量的指数和即可
反向传播需要计算输出向量对输入向量的导数，输出向量i分量（Oi）对输入向量的分量j（Ij）的导数分为两种情况：
1. i=j 时，其值等于 Oi * (1 - Oi)
2. i≠j 时，其值等于 -1 * Oi * Ij
整个输出向量O，欲求O对于 Ii 的导数，必须依次计算 O1，O2， O3 …On 对 Ii的导数，再将他们加和，作为 O 对 Ii 的导数

代码

# Forward propagation
# param x : last layer's output
# 前向传播
# x 是当前层的输入
def FP(self, x):
    self.input = x.copy()
    self.expi = np.exp(self.input)
    self.sum = np.sum(self.expi)
    self.output = self.expi / self.sum
    self.next_layer.FP(x=self.output)

# Back propagation
# param gradient : last layer's gradient
# param lr       : learning rate
# 反向传播，gradient是当前层输出对损失函数的梯度， lr是学习率
def BP(self, gradient, lr):
    self.gradient = gradient.copy()
    self.tp = self.expi/self.sum
    self.last_layer_gradient = np.zeros(shape=self.input_shape, dtype=np.float64)

    for i in range(self.input_shape[0]):
        # gradient for Input[i]
        # 输入向量 Input 的第 i 个位置的梯度
        self.gradient_for_Ii = np.zeros(shape=self.input_shape, dtype=np.float64)

        for j in range(self.input_shape[0]):
            if i == j:
                self.gradient_for_Ii[j] = self.output[i]*(1 - self.output[i])
            else:
                self.gradient_for_Ii[j] = -1 * self.output[i] * self.output[j]

        self.last_layer_gradient[i] = np.sum(self.gradient_for_Ii * self.gradient)

    self.last_layer.BP(gradient=self.last_layer_gradient, lr=lr)

Softmax层输出&梯度推导及Python实现

Softmax层输出&梯度推导及Python实现

推导

结论

代码

继续阅读

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

极大似然法(ML)与最大期望法(EM)

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

C++ 第十五周报告1--《冒泡法排序》

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希

Softmax层 输出&amp;梯度推导及Python实现

Softmax层 输出&梯度推导及Python实现

推导

结论

代码

继续阅读

Softmax层输出&梯度推导及Python实现

Softmax层输出&梯度推导及Python实现