儲存和加載模型 pytorch

# 儲存和加載模型
# 當儲存和加載模型時，需要熟悉三個核心功能：
# 1、torch.save：将序列化對象儲存到磁盤。此函數使用Python的pickle子產品進行序列化。使用此函數可以儲存如模型、tensor、
# 字典等各種對象。
# 2、torch.load：使用pickle的unpickling功能将pickle對象檔案反序列化到記憶體。此功能還可以有助于裝置加載資料。
# 3、torch.nn.Module.load_state_dict：使用反序列化函數 state_dict 來加載模型的參數字典。

# 一、什麼是狀态字典：state_dict?
# 在PyTorch中，torch.nn.Module模型的可學習參數（即權重和偏差）包含在模型的參數中，（使用model.parameters()可以進行
# 通路）。 state_dict是Python字典對象，它将每一層映射到其參數張量。注意，隻有具有可學習參數的層（如卷積層，線性層等）
# 的模型 才具有state_dict這一項。目标優化torch.optim也有state_dict屬性，它包含有關優化器的狀态資訊，以及使用的超參數。
# 因為state_dict的對象是Python字典，是以它們可以很容易的儲存、更新、修改和恢複，為PyTorch模型和優化器添加了大量子產品。
# 下面通過從簡單模型訓練一個分類器中來了解一下state_dict的使用。
# 定義模型
import torch
import torch.nn as nn
import torch.optim as optim
class TheModelClass(nn.Module):
    def __init__(self):
        super(TheModelClass, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

# 初始化模型
model = TheModelClass()
# 初始化優化器
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
# 列印模型的狀态字典
print("Model's state_dict:")
for param_tensor in model.state_dict():
    print(param_tensor, "\t", model.state_dict()[param_tensor].size())
# 列印優化器的狀态字典
print("Optimizer's state_dict:")
for var_name in optimizer.state_dict():
    print(var_name, "\t", optimizer.state_dict()[var_name])

# 二、儲存和加載推理模型
# 2.1 儲存/加載state_dict（推薦使用）
# 儲存 torch.save(model.state_dict(), PATH)
# 加載
# model = TheModelClass(*args, **kwargs)
# model.load_state_dict(torch.load(PATH))
# model.eval()
1此部分儲存/加載過程使用最直覺的文法并涉及最少量的代碼。以 Python `pickle 子產品的方式來儲存模型。這種方法的缺點
是序列化資料受限于某種特殊的類而且需要确切的字典結構。這是因為pickle無法儲存模型類本身。相反，它儲存包含類的文
件的路徑，該檔案在加載時使用。 是以，當在其他項目使用或者重構之後，您的代碼可能會以各種方式中斷。
2在 PyTorch 中最常見的模型儲存使用‘.pt’或者是‘.pth’作為模型檔案擴充名。
3請記住，在運作推理之前，務必調用model.eval()設定 dropout 和 batch normalization 層為評估模式。如果不這麼做，可能
導緻模型推斷結果不一緻。

三、儲存和加載 Checkpoint 用于推理/繼續訓練
儲存
torch.save({
            'epoch': epoch,
            'model_state_dict': model.state_dict(),
            'optimizer_state_dict': optimizer.state_dict(),
            'loss': loss,
            ...
            }, PATH)
加載
model = TheModelClass(*args, **kwargs)
optimizer = TheOptimizerClass(*args, **kwargs)

checkpoint = torch.load(PATH)
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
epoch = checkpoint['epoch']
loss = checkpoint['loss']

model.eval()
# - or -
model.train()
1當儲存成 Checkpoint 的時候，可用于推理或者是繼續訓練，儲存的不僅僅是模型的 state_dict 。儲存優化器的 
state_dict 也很重要, 因為它包含作為模型訓練更新的緩沖區和參數。你也許想儲存其他項目，比如最新記錄的訓練損失，
外部的torch.nn.Embedding層等等。
2要儲存多個元件，請在字典中組織它們并使用torch.save()來序列化字典。PyTorch 中常見的儲存checkpoint 是使用 .tar 
檔案擴充名。
3要附加元件目，首先需要初始化模型和優化器，然後使用torch.load()來加載本地字典。這裡,你可以非常容易的通過簡單查詢字
典來通路你所儲存的項目。
4請記住在運作推理之前，務必調用model.eval()去設定 dropout 和 batch normalization 為評估。如果不這樣做，有可能
得到不一緻的推斷結果。 如果你想要恢複訓練，請調用model.train()以確定這些層處于訓練模式。

四、在一個檔案中儲存多個模型
儲存
torch.save({
            'modelA_state_dict': modelA.state_dict(),
            'modelB_state_dict': modelB.state_dict(),
            'optimizerA_state_dict': optimizerA.state_dict(),
            'optimizerB_state_dict': optimizerB.state_dict(),
            ...
            }, PATH)
加載
modelA = TheModelAClass(*args, **kwargs)
modelB = TheModelBClass(*args, **kwargs)
optimizerA = TheOptimizerAClass(*args, **kwargs)
optimizerB = TheOptimizerBClass(*args, **kwargs)

checkpoint = torch.load(PATH)
modelA.load_state_dict(checkpoint['modelA_state_dict'])
modelB.load_state_dict(checkpoint['modelB_state_dict'])
optimizerA.load_state_dict(checkpoint['optimizerA_state_dict'])
optimizerB.load_state_dict(checkpoint['optimizerB_state_dict'])

modelA.eval()
modelB.eval()
# - or -
modelA.train()
modelB.train()
1當儲存一個模型由多個torch.nn.Modules組成時，例如GAN(對抗生成網絡)、sequence-to-sequence (序列到序列模型), 
或者是多個模型融合, 可以采用與儲存正常檢查點相同的方法。換句話說，儲存每個模型的 state_dict 的字典和相對應的
優化器。如前所述，可以通過簡單地将它們附加到字典的方式來儲存任何其他項目，這樣有助于恢複訓練。
2 PyTorch 中常見的儲存 checkpoint 是使用 .tar 檔案擴充名。
3 要附加元件目，首先需要初始化模型和優化器，然後使用torch.load()來加載本地字典。這裡，你可以非常容易的通過簡單查
詢字典來通路你所儲存的項目。
4 請記住在運作推理之前，務必調用model.eval()去設定 dropout 和 batch normalization 為評估。如果不這樣做，有可
能得到不一緻的推斷結果。 如果你想要恢複訓練，請調用model.train()以確定這些層處于訓練模式。

五、使用在不同模型參數下的熱啟動模式
儲存
torch.save(modelA.state_dict(), PATH)
加載
modelB = TheModelBClass(*args, **kwargs)
modelB.load_state_dict(torch.load(PATH), strict=False)
1在遷移學習或訓練新的複雜模型時，部分加載模型或加載部分模型是常見的情況。利用訓練好的參數，有助于熱啟動訓練過程，
并希望幫助你的模型比從頭開始訓練能夠更快地收斂。
2無論是從缺少某些鍵的 state_dict 加載還是從鍵的數目多于加載模型的 state_dict , 都可以通過在load_state_dict()函
數中将strict參數設定為 False 來忽略非比對鍵的函數。
3如果要将參數從一個層加載到另一個層，但是某些鍵不比對，主要修改正在加載的 state_dict 中的參數鍵的名稱以比對要在
加載到模型中的鍵即可。

六、通過裝置儲存/加載模型
儲存到 CPU、加載到 CPU
儲存
torch.save(model.state_dict(), PATH)
加載
device = torch.device('cpu')
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH, map_location=device))
當從CPU上加載模型在GPU上訓練時, 将torch.device('cpu')傳遞給torch.load()函數中的map_location參數.在這種情況下，
使用 map_location參數将張量下的存儲器動态的重新映射到CPU裝置。

儲存到 GPU、加載到 GPU
儲存
torch.save(model.state_dict(), PATH)
加載
device = torch.device("cuda")
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH))
model.to(device)
# 確定在你提供給模型的任何輸入張量上調用input = input.to(device)
在GPU上訓練并把模型儲存在GPU，隻需要使用model.to(torch.device('cuda'))，将初始化的 model 轉換為 CUDA 優化模型。
另外，請務必在所有模型輸入上使用.to(torch.device('cuda'))函數來為模型準備資料。請注意，
調用my_tensor.to(device)會在GPU上傳回my_tensor的副本。 是以，請記住手動覆寫張量：
my_tensor= my_tensor.to(torch.device('cuda'))。

儲存到 CPU，加載到 GPU
儲存
torch.save(model.state_dict(), PATH)
加載
device = torch.device("cuda")
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH, map_location="cuda:0"))  # Choose whatever GPU device number you want
model.to(device)
# 確定在你提供給模型的任何輸入張量上調用input = input.to(device)
在CPU上訓練好并儲存的模型加載到GPU時，将torch.load()函數中的map_location參數設定為cuda:device_id。這會将模型
加載到 指定的GPU裝置。接下來，請務必調用model.to(torch.device('cuda'))将模型的參數張量轉換為 CUDA 張量。最後，
確定在所有模型輸入上使用  .to(torch.device('cuda'))函數來為CUDA優化模型。請注意，調用my_tensor.to(device)會
在GPU上傳回my_tensor的新副本。它不會覆寫my_tensor。 是以， 請手動覆寫張量
my_tensor = my_tensor.to(torch.device('cuda'))。

儲存 torch.nn.DataParallel 模型
儲存
torch.save(model.module.state_dict(), PATH)
加載
# 加載任何你想要的裝置
torch.nn.DataParallel是一個模型封裝，支援并行GPU使用。要普通儲存 DataParallel 模型, 請儲存
model.module.state_dict()。 這樣，你就可以非常靈活地以任何方式加載模型到你想要的裝置中。
儲存和加載模型 pytorch

繼續閱讀

Pytorch中的contiguous了解

pytorch中 max()、view()、 squeeze()、 unsqueeze()

PyTorch中Tensor的學習筆記1 緻謝2 如何建立一個Tensor2.2 如何建立作為參數的Tensor3 PyTorch中Tensor的索引

＜pytorch學習＞初識張量（Tensor）

pytorch中的numel函數

PyTorch實戰mnist圖像分類項目結構項目代碼

Pytorch學習01-訓練圖像分類器前言一、訓練圖像分類器總結

深度學習AlexNet模型詳細分析

Pytorch學習——GAN——MINST

pytorch GAN

PyTorch實作Inception Module一、Inception網絡簡介二、Inception Module三、使用該Inception Module實作MNIST

二進制交叉熵損失函數

（１）nn和nn.functional的差別

torch.nn.ReLU用法

pytorch學習13：實作LetNet和學習nn.Module相關基本操作模型建立代碼輸出網絡結構檢視可訓練參數前向傳播反向傳播和梯度下降優化器關于 zero_grad

torch.init.normal_和torch.init.constant_用法