PyTorch Trick 集錦(更新至11點)

2019 年 12 月 5 日
筆記

作者：z.defying

https://zhuanlan.zhihu.com/p/76459295

本文已由作者授權，未經允許，不得二次轉載

指定GPU編號
查看模型每層輸出詳情
梯度裁剪
擴展單張圖片維度
獨熱編碼
防止驗證模型時爆顯示記憶體
學習率衰減
凍結某些層的參數
對不同層使用不同學習率
模型相關操作
Pytorch內置one hot函數

1、指定GPU編號

設置當前使用的GPU設備僅為0號設備，設備名稱為 /gpu:0：os.environ["CUDA_VISIBLE_DEVICES"] = "0"
設置當前使用的GPU設備為0,1號兩個設備，名稱依次為 /gpu:0、/gpu:1： os.environ["CUDA_VISIBLE_DEVICES"] = "0,1" ，根據順序表示優先使用0號設備,然後使用1號設備。

指定GPU的命令需要放在和神經網路相關的一系列操作的前面。

2、查看模型每層輸出詳情

Keras有一個簡潔的API來查看模型的每一層輸出尺寸，這在調試網路時非常有用。現在在PyTorch中也可以實現這個功能。

使用很簡單，如下用法：

from torchsummary import summary  summary(your_model, input_size=(channels, H, W))

input_size 是根據你自己的網路模型的輸入尺寸進行設置。

https://github.com/sksq96/pytorch-summary

3、梯度裁剪（Gradient Clipping）

import torch.nn as nn    outputs = model(data)  loss= loss_fn(outputs, target)  optimizer.zero_grad()  loss.backward()  nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)  optimizer.step()

nn.utils.clip_grad_norm_ 的參數：

parameters – 一個基於變數的迭代器，會進行梯度歸一化
max_norm – 梯度的最大範數
norm_type – 規定範數的類型，默認為L2

不橢的橢圓 提出：梯度裁剪在某些任務上會額外消耗大量的計算時間

4、擴展單張圖片維度

因為在訓練時的數據維度一般都是 (batch_size, c, h, w)，而在測試時只輸入一張圖片，所以需要擴展維度，擴展維度有多個方法：

import cv2  import torch    image = cv2.imread(img_path)  image = torch.tensor(image)  print(image.size())    img = image.view(1, *image.size())  print(img.size())    # output:  # torch.Size([h, w, c])  # torch.Size([1, h, w, c])

或

import cv2  import numpy as np    image = cv2.imread(img_path)  print(image.shape)  img = image[np.newaxis, :, :, :]  print(img.shape)    # output:  # (h, w, c)  # (1, h, w, c)

或（感謝知乎用戶 coldleaf 的補充）

import cv2  import torch    image = cv2.imread(img_path)  image = torch.tensor(image)  print(image.size())    img = image.unsqueeze(dim=0)  print(img.size())    img = img.squeeze(dim=0)  print(img.size())    # output:  # torch.Size([(h, w, c)])  # torch.Size([1, h, w, c])  # torch.Size([h, w, c])

tensor.unsqueeze(dim)：擴展維度，dim指定擴展哪個維度。

tensor.squeeze(dim)：去除dim指定的且size為1的維度，維度大於1時，squeeze()不起作用，不指定dim時，去除所有size為1的維度。

5、獨熱編碼

在PyTorch中使用交叉熵損失函數的時候會自動把label轉化成onehot，所以不用手動轉化，而使用MSE需要手動轉化成onehot編碼。

import torch  class_num = 8  batch_size = 4    def one_hot(label):      """      將一維列錶轉換為獨熱編碼      """      label = label.resize_(batch_size, 1)      m_zeros = torch.zeros(batch_size, class_num)      # 從 value 中取值，然後根據 dim 和 index 給相應位置賦值      onehot = m_zeros.scatter_(1, label, 1)  # (dim,index,value)        return onehot.numpy()  # Tensor -> Numpy    label = torch.LongTensor(batch_size).random_() % class_num  # 對隨機數取余  print(one_hot(label))    # output:  [[0. 0. 0. 1. 0. 0. 0. 0.]   [0. 0. 0. 0. 1. 0. 0. 0.]   [0. 0. 1. 0. 0. 0. 0. 0.]   [0. 1. 0. 0. 0. 0. 0. 0.]]

https://discuss.pytorch.org/t/convert-int-into-one-hot-format/507/3

註：第11條有更簡單的方法。

6、防止驗證模型時爆顯示記憶體

驗證模型時不需要求導，即不需要梯度計算，關閉autograd，可以提高速度，節約記憶體。如果不關閉可能會爆顯示記憶體。

with torch.no_grad():      # 使用model進行預測的程式碼      pass

感謝知乎用戶zhaz 的提醒，我把 torch.cuda.empty_cache() 的使用原因更新一下。

這是原回答：

Pytorch 訓練時無用的臨時變數可能會越來越多，導致 out of memory ，可以使用下面語句來清理這些不需要的變數。

官網上的解釋為：

Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi.torch.cuda.empty_cache()

意思就是PyTorch的快取分配器會事先分配一些固定的顯示記憶體，即使實際上tensors並沒有使用完這些顯示記憶體，這些顯示記憶體也不能被其他應用使用。這個分配過程由第一次CUDA記憶體訪問觸發的。

而 torch.cuda.empty_cache() 的作用就是釋放快取分配器當前持有的且未佔用的快取顯示記憶體，以便這些顯示記憶體可以被其他GPU應用程式中使用，並且通過 nvidia-smi命令可見。注意使用此命令不會釋放tensors佔用的顯示記憶體。

對於不用的數據變數，Pytorch 可以自動進行回收從而釋放相應的顯示記憶體。

更詳細的優化可以查看優化顯示記憶體使用和顯示記憶體利用問題。

7、學習率衰減

import torch.optim as optim  from torch.optim import lr_scheduler    # 訓練前的初始化  optimizer = optim.Adam(net.parameters(), lr=0.001)  scheduler = lr_scheduler.StepLR(optimizer, 10, 0.1)  # # 每過10個epoch，學習率乘以0.1    # 訓練過程中  for n in n_epoch:      scheduler.step()      ...

8、凍結某些層的參數

參考：Pytorch 凍結預訓練模型的某一層

在載入預訓練模型的時候，我們有時想凍結前面幾層，使其參數在訓練過程中不發生變化。

我們需要先知道每一層的名字，通過如下程式碼列印：

net = Network()  # 獲取自定義網路結構  for name, value in net.named_parameters():      print('name: {0},t grad: {1}'.format(name, value.requires_grad))

假設前幾層資訊如下：

name: cnn.VGG_16.convolution1_1.weight,	 grad: True  name: cnn.VGG_16.convolution1_1.bias,	 grad: True  name: cnn.VGG_16.convolution1_2.weight,	 grad: True  name: cnn.VGG_16.convolution1_2.bias,	 grad: True  name: cnn.VGG_16.convolution2_1.weight,	 grad: True  name: cnn.VGG_16.convolution2_1.bias,	 grad: True  name: cnn.VGG_16.convolution2_2.weight,	 grad: True  name: cnn.VGG_16.convolution2_2.bias,	 grad: True

後面的True表示該層的參數可訓練，然後我們定義一個要凍結的層的列表：

no_grad = [      'cnn.VGG_16.convolution1_1.weight',      'cnn.VGG_16.convolution1_1.bias',      'cnn.VGG_16.convolution1_2.weight',      'cnn.VGG_16.convolution1_2.bias'  ]

凍結方法如下：

net = Net.CTPN()  # 獲取網路結構  for name, value in net.named_parameters():      if name in no_grad:          value.requires_grad = False      else:          value.requires_grad = True

凍結後我們再列印每層的資訊：

name: cnn.VGG_16.convolution1_1.weight,	 grad: False  name: cnn.VGG_16.convolution1_1.bias,	 grad: False  name: cnn.VGG_16.convolution1_2.weight,	 grad: False  name: cnn.VGG_16.convolution1_2.bias,	 grad: False  name: cnn.VGG_16.convolution2_1.weight,	 grad: True  name: cnn.VGG_16.convolution2_1.bias,	 grad: True  name: cnn.VGG_16.convolution2_2.weight,	 grad: True  name: cnn.VGG_16.convolution2_2.bias,	 grad: True

可以看到前兩層的weight和bias的requires_grad都為False，表示它們不可訓練。

最後在定義優化器時，只對requires_grad為True的層的參數進行更新。

optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)

9、對不同層使用不同學習率

我們對模型的不同層使用不同的學習率。

還是使用這個模型作為例子：

net = Network()  # 獲取自定義網路結構  for name, value in net.named_parameters():      print('name: {}'.format(name))    # 輸出：  # name: cnn.VGG_16.convolution1_1.weight  # name: cnn.VGG_16.convolution1_1.bias  # name: cnn.VGG_16.convolution1_2.weight  # name: cnn.VGG_16.convolution1_2.bias  # name: cnn.VGG_16.convolution2_1.weight  # name: cnn.VGG_16.convolution2_1.bias  # name: cnn.VGG_16.convolution2_2.weight  # name: cnn.VGG_16.convolution2_2.bias

對 convolution1 和 convolution2 設置不同的學習率，首先將它們分開，即放到不同的列表裡：

conv1_params = []  conv2_params = []    for name, parms in net.named_parameters():      if "convolution1" in name:          conv1_params += [parms]      else:          conv2_params += [parms]    # 然後在優化器中進行如下操作：  optimizer = optim.Adam(      [          {"params": conv1_params, 'lr': 0.01},          {"params": conv2_params, 'lr': 0.001},      ],      weight_decay=1e-3,  )

我們將模型劃分為兩部分，存放到一個列表裡，每部分就對應上面的一個字典，在字典里設置不同的學習率。當這兩部分有相同的其他參數時，就將該參數放到列表外面作為全局參數，如上面的`weight_decay`。

也可以在列表外設置一個全局學習率，當各部分字典里設置了局部學習率時，就使用該學習率，否則就使用列表外的全局學習率。

10、模型相關操作

這個內容比較多，我寫成了一篇文章。

詳見：https://zhuanlan.zhihu.com/p/73893187

11、Pytorch內置one_hot函數

感謝 yangyangyang 補充：Pytorch 1.1後，one_hot可以直接用torch.nn.functional.one_hot。

然後我將Pytorch升級到1.2版本，試用了下 one_hot 函數，確實很方便。

具體用法如下：

import torch.nn.functional as F  import torch    tensor =  torch.arange(0, 5) % 3  # tensor([0, 1, 2, 0, 1])  one_hot = F.one_hot(tensor)    # 輸出：  # tensor([[1, 0, 0],  #         [0, 1, 0],  #         [0, 0, 1],  #         [1, 0, 0],  #         [0, 1, 0]])

F.one_hot會自己檢測不同類別個數，生成對應獨熱編碼。我們也可以自己指定類別數：

tensor =  torch.arange(0, 5) % 3  # tensor([0, 1, 2, 0, 1])  one_hot = F.one_hot(tensor, num_classes=5)    # 輸出：  # tensor([[1, 0, 0, 0, 0],  #         [0, 1, 0, 0, 0],  #         [0, 0, 1, 0, 0],  #         [1, 0, 0, 0, 0],  #         [0, 1, 0, 0, 0]])

升級 Pytorch (cpu版本)的命令：conda install pytorch torchvision -c pytorch

（希望PyTorch升級不會影響項目程式碼）