2019年深度學習Top 5研究論文,一文Get硬核乾貨:XLNet、網絡剪枝、StarGAN
- 2019 年 12 月 21 日
- 筆記

對於整個深度學習和機器學習來說,今年是重要的一年。如今,連面向嬰兒的神經網絡的書籍都已經面世。不過,除了讀書之外,在這個瘋狂的世界中保持最新狀態的最佳方法是閱讀論文。擁有超過10年的人工智能和軟件開發經驗的Rubik』s Code公司為我們重點介紹了今年對我們產生重大影響的5篇論文。
XLNet:用於語言理解的廣義自回歸預訓練

論文鏈接:
https://arxiv.org/pdf/1906.08237.pdf
代碼資源:
https://github.com/zihangdai/xlnet?source=post_page—–1ec363f29e85———————-
從去年開始,NLP領域就一直受BERT的統治,但在2019年,我們迎來了新王者XLNet。來自CMU和Google的研究人員開發的新架構在20個任務上的表現超過BERT。問題是,BERT的訓練是在有損壞的輸入上進行的,這會導致預訓練與精調之間的差異。簡而言之,輸入token序列中的特定數量的token將被特殊符號替換,再訓練BERT使用雙向上下文進行重構,從損壞的輸入中恢復原始token。

XLNet也使用這種自動編碼方法,但是結合了自動回歸語言建模。這種方法利用上下文來預測下一個單詞,但僅限於兩個方向,可以向前或向後。也就是說,如果我們嘗試預測句子中的某個單詞(token),會查看該詞之前或之後的詞以對其進行預測。最著名的自回歸語言模型是Transformer。XLNet使用更高級的Transformer-XL體系結構。
本質上講,自回歸語言建模和BERT相對於其他語言佔據優勢,而XLNet則在兼顧兩者優勢的同時,巧妙地避免了自身的劣勢。和BERT一樣,XLNet利用雙向上下文預測,即預測時考慮token前後的單詞。另一方面,作為自回歸語言模型,XLNet不依賴於輸入數據損壞,因此不存在BERT的局限性。
基於可轉換架構搜索的網絡剪枝

論文鏈接:
https://arxiv.org/pdf/1905.09717.pdf
代碼資源:
https://github.com/D-X-Y/NAS-Projects?source=post_page—–1ec363f29e85———————-
網絡剪枝是深度學習的一個有趣的領域。其思路是分析神經網絡的結構,並在其中找到「死角」和有用的參數。然後按照估計好的深度和寬度建立一種新架構,稱為剪枝網絡。然後,可以將來自原網絡中的有用參數傳輸到新網絡。這種方式對於深度卷積神經網絡(CNN)特別有用,如果在嵌入式系統中進行部署,網絡規模可能會變得很大且不切實際。在前一種情況下,網絡剪枝可以減少超參數數量,降低CNN的計算成本。
傳統的網絡剪枝方法如下所示:

本文實際上建議使用的方法如下圖所示:

本文實際上一開始就進行了大型網絡的訓練。然後通過傳輸體系結構搜索(TAS)提出了搜索小型網絡的深度和寬度的建議。最後,使用知識提煉將大型網絡中的知識轉移到小型網絡中。
Demucs:一個面向音樂源的深度提取器

論文鏈接:
https://arxiv.org/pdf/1909.01174v1.pdf
代碼資源:
https://github.com/facebookresearch/demucs
在錄製某些歌曲時,每種樂器都分別錄製到單獨的音軌或stem中。之後在混音和母帶階段,這些詞幹被合併在一起,生成歌曲。本文的目的是找到這一過程的逆向過程的方法,也就是說要從完成的歌曲中提取每個單獨的stem。這個問題的靈感源自所謂「雞尾酒會效應」,是說人腦可以從一個嘈雜的聊天室的環境中將單獨對話分離出來,並專註於這個特定的對話,自帶降噪效果。
本文提出的體系架構是SING神經網絡體系結構和Wave-U-Net的思想的結合。前者用於符號到樂器的音樂合成,而後者是從混音中提取stem的方法之一。本質上是LSTM、卷積層與U-Net架構的結合。其中卷積層負責體系結構的編碼,LSTM層用於解碼。為了提高模型性能,本文中的架構不使用批量歸一化層。
StarGAN v2:多域的多樣化圖像合成

論文鏈接:
https://arxiv.org/pdf/1912.01865v1.pdf
代碼資源:
https://github.com/clovaai/stargan-v2
我們愛GANs!特別是在圖像創建和處理方面。這個領域中一個非常有趣的問題就是所謂的「圖像到圖像轉換問題」,我們希望將特徵從一個圖像域轉移到另一個圖像域(這裡的「圖像域」代表可以歸類為視覺上獨特的類別的一組圖像)。我們喜歡CycleGAN和StarGAN等旨在解決此問題的解決方案,因此您可以想像幾天前看到StarGAN v2論文時我們有多麼興奮。
本文還討論了另一個問題——域的可伸縮性。這意味着它可以同時解決多個圖像域的問題。本質上,這個架構依賴於StarGAN早期版本的成功,並為其添加了樣式層。它由四個模塊組成:第一個模塊是生成器,它負責將輸入圖像轉換為反映域特定樣式的輸出圖像;接下來是映射網絡轉換器(Mapping Network Transformer),它將潛在代碼轉換為多個域的樣式代碼;第三個是樣式編碼器,它提取圖像的樣式並將其提供給生成器;最後,判別器可以從多個域中區分真實圖像和偽圖像。
深度感知視頻插幀

論文鏈接:
https://arxiv.org/pdf/1904.00830
代碼資源:
https://github.com/baowenbo/DAIN?source=post_page—–1ec363f29e85———————-
視頻幀合成是信號處理領域的一個有趣的分支。通常,這都是關於在現有視頻中合成視頻幀的。如果在視頻幀之間完成操作,則稱為內插(interpolation);而在視頻幀之後進行此操作,則稱為外推(extrapolation)。視頻幀內插是一個長期存在的課題,並且已經在文獻中進行了廣泛的研究。這是一篇利用了深度學習技術的有趣論文。通常,由於較大的物體運動或遮擋,插值的質量會降低。在本文中,作者使用深度學習通過探索深度信息來檢測遮擋。
他們創建了稱為「深度感知視頻幀內插」(Depth-Aware video frame INterpolation,DAIN)的架構。該模型利用深度圖、局部插值核和上下文特徵來生成視頻幀。本質上,DAIN是基於光流和局部插值核,通過融合輸入幀、深度圖和上下文特徵來構造輸出幀。
在這些文章中,我們有機會看到一些有趣的論文和在深度學習領域取得的進步。這一領域在不斷發展,我們預計2020年會更有趣。
參考鏈接: