只需兩行程式碼,2080Ti 就能當 V100用,這個煉丹神器真牛!
- 2021 年 6 月 17 日
- AI
作者 | 陳大鑫、青暮



「魔法」從何而來



實驗數據對比



-
犧牲的計算時長由DTR的參數決定,最壞情況下所有 Tensor 在不被用到的時候都立即釋放,恢復每個 Tensor 的時間都是 O(N)的,總的時間就會達到 O(N^2) 級別。但一般情況下只是原來的時間的常數倍。
-
例如訓練 batchsize=200 的 ResNet50 需要 16G 左右的顯示記憶體,每輪的訓練耗時是800ms。設置DTR的閾值為7G時,只需要 11G 的顯示記憶體,訓練耗時為 898ms;設置DTR的閾值為3G時,只需要 7.5G 的顯示記憶體,訓練耗時為 1239ms。


總結