梯度消失与爆炸

梯度爆炸

pytorch_权值初始化梯度消失与爆炸

要使网络输出不能太大不能太小

pytorch_权值初始化梯度消失与爆炸

初始化网络权值方差

为了使输出方差为1，将网络权值的方差设为

def initialize(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                nn.init.normal_(m.weight.data, std=np.sqrt(1/self.neural_num))    # normal: mean=0, std=1

梯度消失

若输出加入激活函数，会使网络层的输出层数据越来越小，从而导致梯度消失

Xavier初始化（适用饱和函数）

pytorch_权值初始化梯度消失与爆炸

Kaiming初始化（适用于非饱和）

pytorch_权值初始化梯度消失与爆炸

十种初始化方法

pytorch_权值初始化梯度消失与爆炸

pytorch_权值初始化梯度消失与爆炸

权值初始化

梯度消失与爆炸

梯度爆炸

初始化网络权值方差

梯度消失

Xavier初始化（适用饱和函数）

Kaiming初始化（适用于非饱和）

十种初始化方法

继续阅读

PyTorch自动混合精度训练(AMP)手册PyTorch自动混合精度训练(AMP)手册

PyTorch的自动混合精度（AMP）

Pytorch自动混合精度(AMP)介绍与使用Pytorch自动混合精度(AMP)介绍与使用

关于半精度fp16的混合训练fp16fp16&fp32混合精度训练

pytorch 基于 apex.amp 的混合精度训练：原理介绍与实现

9、TORCH.UTILS.MODEL_ZOO

梯度累加及torch实现1. 什么是梯度累加2. 梯度累加的过程3. 实验4. 参考

torch.nn.Upsample实现上采样

深度学习的一些小记录里面有一部分是摘录

LabelImg的安装与使用（Anaconda环境）Labellmg的安装

pytorch：List中包含Tensor的grad数据怎么办？

Pytorch机器学习（九）—— YOLO中对于锚框，预测框，产生候选区域及对候选区域进行标注详解 Pytorch机器学习（九）—— YOLO中锚框，预测框，产生候选区域及对候选区域进行标注详解前言一、基本概念二、代码讲解总结

CogView: Mastering Text-to-Image Generation via Transformers翻译摘要1.介绍2.方法3.Finetuning

【深度学习】损失函数记录0. 前言1. 正文参考文献

深度学习之卷积01 卷积02 填充Padding03 步幅Stride04 卷积核的选择05 多通道卷积参考

【Torch】最简洁logging使用指南