梯度消失與爆炸

梯度爆炸

pytorch_權值初始化梯度消失與爆炸

要使網絡輸出不能太大不能太小

pytorch_權值初始化梯度消失與爆炸

初始化網絡權值方差

為了使輸出方差為1，将網絡權值的方差設為

def initialize(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                nn.init.normal_(m.weight.data, std=np.sqrt(1/self.neural_num))    # normal: mean=0, std=1

梯度消失

若輸出加入激活函數，會使網絡層的輸出層資料越來越小，進而導緻梯度消失

Xavier初始化（适用飽和函數）

pytorch_權值初始化梯度消失與爆炸

Kaiming初始化（适用于非飽和）

pytorch_權值初始化梯度消失與爆炸

十種初始化方法

pytorch_權值初始化梯度消失與爆炸

pytorch_權值初始化梯度消失與爆炸

權值初始化

梯度消失與爆炸

梯度爆炸

初始化網絡權值方差

梯度消失

Xavier初始化（适用飽和函數）

Kaiming初始化（适用于非飽和）

十種初始化方法

繼續閱讀

PyTorch自動混合精度訓練(AMP)手冊PyTorch自動混合精度訓練(AMP)手冊

PyTorch的自動混合精度（AMP）

Pytorch自動混合精度(AMP)介紹與使用Pytorch自動混合精度(AMP)介紹與使用

關于半精度fp16的混合訓練fp16fp16&fp32混合精度訓練

pytorch 基于 apex.amp 的混合精度訓練：原理介紹與實作

9、TORCH.UTILS.MODEL_ZOO

梯度累加及torch實作1. 什麼是梯度累加2. 梯度累加的過程3. 實驗4. 參考

torch.nn.Upsample實作上采樣

深度學習的一些小記錄裡面有一部分是摘錄

LabelImg的安裝與使用（Anaconda環境）Labellmg的安裝

pytorch：List中包含Tensor的grad資料怎麼辦？

Pytorch機器學習（九）—— YOLO中對于錨框，預測框，産生候選區域及對候選區域進行标注詳解 Pytorch機器學習（九）—— YOLO中錨框，預測框，産生候選區域及對候選區域進行标注詳解前言一、基本概念二、代碼講解總結

CogView: Mastering Text-to-Image Generation via Transformers翻譯摘要1.介紹2.方法3.Finetuning

【深度學習】損失函數記錄0. 前言1. 正文參考文獻

深度學習之卷積01 卷積02 填充Padding03 步幅Stride04 卷積核的選擇05 多通道卷積參考

【Torch】最簡潔logging使用指南