PyTorch Trick 集錦(更新至11點)

  • 2019 年 12 月 5 日
  • 筆記

作者:z.defying

https://zhuanlan.zhihu.com/p/76459295

本文已由作者授權,未經允許,不得二次轉載

目錄:

  1. 指定GPU編號
  2. 查看模型每層輸出詳情
  3. 梯度裁剪
  4. 擴展單張圖片維度
  5. 獨熱編碼
  6. 防止驗證模型時爆顯示記憶體
  7. 學習率衰減
  8. 凍結某些層的參數
  9. 對不同層使用不同學習率
  10. 模型相關操作
  11. Pytorch內置one hot函數

1、指定GPU編號

  • 設置當前使用的GPU設備僅為0號設備,設備名稱為 /gpu:0os.environ["CUDA_VISIBLE_DEVICES"] = "0"
  • 設置當前使用的GPU設備為0,1號兩個設備,名稱依次為 /gpu:0/gpu:1os.environ["CUDA_VISIBLE_DEVICES"] = "0,1" ,根據順序表示優先使用0號設備,然後使用1號設備。

指定GPU的命令需要放在和神經網路相關的一系列操作的前面。

2、查看模型每層輸出詳情

Keras有一個簡潔的API來查看模型的每一層輸出尺寸,這在調試網路時非常有用。現在在PyTorch中也可以實現這個功能。

使用很簡單,如下用法:

from torchsummary import summary  summary(your_model, input_size=(channels, H, W))

input_size 是根據你自己的網路模型的輸入尺寸進行設置。

https://github.com/sksq96/pytorch-summary

3、梯度裁剪(Gradient Clipping)

import torch.nn as nn    outputs = model(data)  loss= loss_fn(outputs, target)  optimizer.zero_grad()  loss.backward()  nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)  optimizer.step()

nn.utils.clip_grad_norm_ 的參數:

  • parameters – 一個基於變數的迭代器,會進行梯度歸一化
  • max_norm – 梯度的最大範數
  • norm_type – 規定範數的類型,默認為L2

不橢的橢圓 提出:梯度裁剪在某些任務上會額外消耗大量的計算時間

4、擴展單張圖片維度

因為在訓練時的數據維度一般都是 (batch_size, c, h, w),而在測試時只輸入一張圖片,所以需要擴展維度,擴展維度有多個方法:

import cv2  import torch    image = cv2.imread(img_path)  image = torch.tensor(image)  print(image.size())    img = image.view(1, *image.size())  print(img.size())    # output:  # torch.Size([h, w, c])  # torch.Size([1, h, w, c])

import cv2  import numpy as np    image = cv2.imread(img_path)  print(image.shape)  img = image[np.newaxis, :, :, :]  print(img.shape)    # output:  # (h, w, c)  # (1, h, w, c)

或(感謝知乎用戶 coldleaf 的補充)

import cv2  import torch    image = cv2.imread(img_path)  image = torch.tensor(image)  print(image.size())    img = image.unsqueeze(dim=0)  print(img.size())    img = img.squeeze(dim=0)  print(img.size())    # output:  # torch.Size([(h, w, c)])  # torch.Size([1, h, w, c])  # torch.Size([h, w, c])

tensor.unsqueeze(dim):擴展維度,dim指定擴展哪個維度。

tensor.squeeze(dim):去除dim指定的且size為1的維度,維度大於1時,squeeze()不起作用,不指定dim時,去除所有size為1的維度。

5、獨熱編碼

在PyTorch中使用交叉熵損失函數的時候會自動把label轉化成onehot,所以不用手動轉化,而使用MSE需要手動轉化成onehot編碼。

import torch  class_num = 8  batch_size = 4    def one_hot(label):      """      將一維列錶轉換為獨熱編碼      """      label = label.resize_(batch_size, 1)      m_zeros = torch.zeros(batch_size, class_num)      # 從 value 中取值,然後根據 dim 和 index 給相應位置賦值      onehot = m_zeros.scatter_(1, label, 1)  # (dim,index,value)        return onehot.numpy()  # Tensor -> Numpy    label = torch.LongTensor(batch_size).random_() % class_num  # 對隨機數取余  print(one_hot(label))    # output:  [[0. 0. 0. 1. 0. 0. 0. 0.]   [0. 0. 0. 0. 1. 0. 0. 0.]   [0. 0. 1. 0. 0. 0. 0. 0.]   [0. 1. 0. 0. 0. 0. 0. 0.]]

https://discuss.pytorch.org/t/convert-int-into-one-hot-format/507/3

註:第11條有更簡單的方法。

6、防止驗證模型時爆顯示記憶體

驗證模型時不需要求導,即不需要梯度計算,關閉autograd,可以提高速度,節約記憶體。如果不關閉可能會爆顯示記憶體。

with torch.no_grad():      # 使用model進行預測的程式碼      pass

感謝知乎用戶zhaz 的提醒,我把 torch.cuda.empty_cache() 的使用原因更新一下。

這是原回答:

Pytorch 訓練時無用的臨時變數可能會越來越多,導致 out of memory ,可以使用下面語句來清理這些不需要的變數。

官網 上的解釋為:

Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi.torch.cuda.empty_cache()

意思就是PyTorch的快取分配器會事先分配一些固定的顯示記憶體,即使實際上tensors並沒有使用完這些顯示記憶體,這些顯示記憶體也不能被其他應用使用。這個分配過程由第一次CUDA記憶體訪問觸發的。

torch.cuda.empty_cache() 的作用就是釋放快取分配器當前持有的且未佔用的快取顯示記憶體,以便這些顯示記憶體可以被其他GPU應用程式中使用,並且通過 nvidia-smi命令可見。注意使用此命令不會釋放tensors佔用的顯示記憶體。

對於不用的數據變數,Pytorch 可以自動進行回收從而釋放相應的顯示記憶體。

更詳細的優化可以查看 優化顯示記憶體使用 和 顯示記憶體利用問題。

7、學習率衰減

import torch.optim as optim  from torch.optim import lr_scheduler    # 訓練前的初始化  optimizer = optim.Adam(net.parameters(), lr=0.001)  scheduler = lr_scheduler.StepLR(optimizer, 10, 0.1)  # # 每過10個epoch,學習率乘以0.1    # 訓練過程中  for n in n_epoch:      scheduler.step()      ...

8、凍結某些層的參數

參考:Pytorch 凍結預訓練模型的某一層

在載入預訓練模型的時候,我們有時想凍結前面幾層,使其參數在訓練過程中不發生變化。

我們需要先知道每一層的名字,通過如下程式碼列印:

net = Network()  # 獲取自定義網路結構  for name, value in net.named_parameters():      print('name: {0},t grad: {1}'.format(name, value.requires_grad))

假設前幾層資訊如下:

name: cnn.VGG_16.convolution1_1.weight,	 grad: True  name: cnn.VGG_16.convolution1_1.bias,	 grad: True  name: cnn.VGG_16.convolution1_2.weight,	 grad: True  name: cnn.VGG_16.convolution1_2.bias,	 grad: True  name: cnn.VGG_16.convolution2_1.weight,	 grad: True  name: cnn.VGG_16.convolution2_1.bias,	 grad: True  name: cnn.VGG_16.convolution2_2.weight,	 grad: True  name: cnn.VGG_16.convolution2_2.bias,	 grad: True

後面的True表示該層的參數可訓練,然後我們定義一個要凍結的層的列表:

no_grad = [      'cnn.VGG_16.convolution1_1.weight',      'cnn.VGG_16.convolution1_1.bias',      'cnn.VGG_16.convolution1_2.weight',      'cnn.VGG_16.convolution1_2.bias'  ]

凍結方法如下:

net = Net.CTPN()  # 獲取網路結構  for name, value in net.named_parameters():      if name in no_grad:          value.requires_grad = False      else:          value.requires_grad = True

凍結後我們再列印每層的資訊:

name: cnn.VGG_16.convolution1_1.weight,	 grad: False  name: cnn.VGG_16.convolution1_1.bias,	 grad: False  name: cnn.VGG_16.convolution1_2.weight,	 grad: False  name: cnn.VGG_16.convolution1_2.bias,	 grad: False  name: cnn.VGG_16.convolution2_1.weight,	 grad: True  name: cnn.VGG_16.convolution2_1.bias,	 grad: True  name: cnn.VGG_16.convolution2_2.weight,	 grad: True  name: cnn.VGG_16.convolution2_2.bias,	 grad: True

可以看到前兩層的weight和bias的requires_grad都為False,表示它們不可訓練。

最後在定義優化器時,只對requires_grad為True的層的參數進行更新。

optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)

9、對不同層使用不同學習率

我們對模型的不同層使用不同的學習率。

還是使用這個模型作為例子:

net = Network()  # 獲取自定義網路結構  for name, value in net.named_parameters():      print('name: {}'.format(name))    # 輸出:  # name: cnn.VGG_16.convolution1_1.weight  # name: cnn.VGG_16.convolution1_1.bias  # name: cnn.VGG_16.convolution1_2.weight  # name: cnn.VGG_16.convolution1_2.bias  # name: cnn.VGG_16.convolution2_1.weight  # name: cnn.VGG_16.convolution2_1.bias  # name: cnn.VGG_16.convolution2_2.weight  # name: cnn.VGG_16.convolution2_2.bias

對 convolution1 和 convolution2 設置不同的學習率,首先將它們分開,即放到不同的列表裡:

conv1_params = []  conv2_params = []    for name, parms in net.named_parameters():      if "convolution1" in name:          conv1_params += [parms]      else:          conv2_params += [parms]    # 然後在優化器中進行如下操作:  optimizer = optim.Adam(      [          {"params": conv1_params, 'lr': 0.01},          {"params": conv2_params, 'lr': 0.001},      ],      weight_decay=1e-3,  )

我們將模型劃分為兩部分,存放到一個列表裡,每部分就對應上面的一個字典,在字典里設置不同的學習率。當這兩部分有相同的其他參數時,就將該參數放到列表外面作為全局參數,如上面的`weight_decay`。

也可以在列表外設置一個全局學習率,當各部分字典里設置了局部學習率時,就使用該學習率,否則就使用列表外的全局學習率。

10、模型相關操作

這個內容比較多,我寫成了一篇文章。

詳見:https://zhuanlan.zhihu.com/p/73893187

11、Pytorch內置one_hot函數

感謝 yangyangyang 補充:Pytorch 1.1後,one_hot可以直接用torch.nn.functional.one_hot

然後我將Pytorch升級到1.2版本,試用了下 one_hot 函數,確實很方便。

具體用法如下:

import torch.nn.functional as F  import torch    tensor =  torch.arange(0, 5) % 3  # tensor([0, 1, 2, 0, 1])  one_hot = F.one_hot(tensor)    # 輸出:  # tensor([[1, 0, 0],  #         [0, 1, 0],  #         [0, 0, 1],  #         [1, 0, 0],  #         [0, 1, 0]])

F.one_hot會自己檢測不同類別個數,生成對應獨熱編碼。我們也可以自己指定類別數:

tensor =  torch.arange(0, 5) % 3  # tensor([0, 1, 2, 0, 1])  one_hot = F.one_hot(tensor, num_classes=5)    # 輸出:  # tensor([[1, 0, 0, 0, 0],  #         [0, 1, 0, 0, 0],  #         [0, 0, 1, 0, 0],  #         [1, 0, 0, 0, 0],  #         [0, 1, 0, 0, 0]])

升級 Pytorch (cpu版本)的命令:conda install pytorch torchvision -c pytorch

(希望PyTorch升級不會影響項目程式碼)