【NeurIPS 2019】7篇自動化神經網絡搜索(NAS)論文簡讀

  • 2019 年 10 月 4 日
  • 筆記

【導讀】Neural Architecture Search(NAS),即自動化神經網絡搜索,雖然早被谷歌在2017 年提出,直到今年才大行其道,屢屢在頂會舞台亮相。筆者從剛剛公布的NuerIPS 2019 接收名單里,找出已經公開了論文的7 篇文章,根據發佈時間排序,並做簡短的解讀。

作者:陳美濟

學校:蘭州大學

1.《自動化神經網絡搜索用於深度主動學習》以色列理工學院

推薦指數:★★☆☆☆

Deep Active Learning with a NeuralArchitecture Search

https://arxiv.org/abs/1811.07579

簡介:深度主動學習着力解決數據缺少標註的問題,主動從大量未標註的數據中檢索已標註數據來進行訓練。深度主動學習的潛力巨大,比如放射顯影圖像需要專業的醫學診斷,這樣的數據很難大規模標註。先前的研究中,針對特定任務,神經網絡結構是固定的,主要聚焦於有效的檢索機制。本文提出的主動學習策略是,在學習過程同時在線搜索神經網絡結構,即結構隨學習過程一起變化。作者對比了三種已知的檢索方法(softmax 響應,蒙特卡洛dropout,及核心集合),加入NAS 之後效果遠超固定網絡結構的方法。

短評:本文將NAS 搜索和主動學習耦和,交叉進行,提升了現有主動學習的的水平,結合點比較好。但NAS 方法比較樸素,只用於這個特定任務和數據集。搜索空間是堆疊相同block 的方式,而block 用了ResNet 基本單元。可變部分是block 個數和stack 個數,空間比較有限。驗證每個結構的能力用了early stopping,只訓練了50 個epoch。

2.《DetNAS:目標檢測主幹網搜索》中科院,曠視

推薦指數:★★★★☆

DetNAS: Backbone Search for ObjectDetection

https://arxiv.org/abs/1903.10979

簡介:目標檢測一般使用分類的主幹網,文章認為從分類遷移到檢測可能是次優,所以提出設計直接服務於檢測的網絡。本文基於單次訓練超網(one-shot supernet),提出檢測主幹網搜索方案:超網在ImageNet 上做預訓練,檢測任務上做精調,然後在訓練後的超網中進行搜索,用檢測任務作為評價指標。最後結果在COCO 數據集上以更少的FLOPs 超過了ResNet-50/101。可以看出,ImageNet 仍然是遷移能力很強的數據集。如果超網直接從COCO 來訓練,結果是不是會更好呢?文章也做了對比實驗,相同訓練成本下,ImageNet 預訓練還是佔優。

短評:NAS 用於OD 是眾望所歸,本文是目標檢測領域一篇NAS 力作,也是曠視先前工作SPOS 的延續。優點在於復用了給分類訓練的超網,然後接入固定的檢測後端FPN 在COCO上做精調訓練。最後搜索過程用了主流方法之一演化算法,以COCO 為驗證集來評估模型性能。雖然目前還是集中於主幹網,但為以後主幹和後端同時搜索奠定了基礎。

3.《可變換結構搜索用於網絡剪枝》悉尼科技大學,百度研究院

推薦指數:★★★☆☆

Network Pruning via TransformableArchitecture Search

https://arxiv.org/abs/1905.09717

簡介:剪枝可以降低網絡的過參數化。原有方法限制了寬度和深度,有結構限制。本文引入NAS 以後擺脫了這種限制,可以有更靈活的通道數和深度。具體地,剪枝網絡是抽樣K 個網絡的疊加,網絡參數和抽樣分佈的概率隨剪枝網絡訓練(最小化其loss)一起更新,概率最大的參數即為最後剪枝模型的通道數和層數。如果各抽樣網絡通道數不同時,採取插值方式補齊。實驗數據集是CIFAR-10/100,ImageNet,結果超過現有剪枝方法。

短評:NAS 用於剪枝,也是個不錯的點。本文NAS 師法DARTS,基本思想相同,待剪枝的網絡相當於超網,結構和參數一起優化,最後找出概率最大的那支。不同之處在於結構參數在DARTS 中是各個op 的參數,此處是channel size。

4.《SpArSe:用於受限資源微控制器的稀疏網絡結構搜索》ARM ML 研究院,普林斯頓大學

推薦指數:★★★☆☆

SpArSe: Sparse Architecture Search for CNNs on Resource-Constrained Microcontrollers

https://arxiv.org/abs/1905.12107

簡介:廣泛的IoT 設備使用微控制器MCU 作為運算單元,因為計算、存儲、功耗資源的限制,神經網絡模型需要做專門針對性的設計。本文將設計問題考慮為多目標優化過程(驗證集精度、模型大小、內存佔用),其中內存佔用是根據輸入和各層權重估算得到的。IoT 端內存有兩個核心限制條件,模型參數量不能超過ROM 容量,中間層最大運算結果不能超過RAM 容量,本文對兩個條件都做了相應的處理。另外搜索空間表示為DAG,允許靈活的深度、寬度和連接。卷積運算操作有普通卷積、可分離卷積、另外單獨定義了深度降採樣卷積。優化過程為貝葉斯方法(MOBO)。

短評:NAS 用於受限資源場景,為IoT 服務,是大趨勢和方向。不止IoT 設備,移動端也是受限資源問題,所以使用多目標優化是很自然的。本文使用了貝葉斯方法(優化過程)、模型態射(morphism,用於最大程度地參數共享)、剪枝(非結構化剪枝用稀疏可變Dropout,結構化剪枝用貝葉斯壓縮),和傳統方法比結果也取得SOTA,屬於在沒有防空的領域,用NAS 完勝是合理的。

5. 《高效的前向結構搜索》卡耐基梅隆大學,微軟研究院

推薦指數:★★★☆☆

Efficient Forward Architecture Search

https://arxiv.org/abs/1905.13360

簡介:本文提出叫做Petridish 的NAS 方法,對已有網絡層上迭代式增加短連接,脫胎於集成學習中的梯度提升(Gradient boosting)。命名為「前向」是與固定搜索空間的逆推最優模型方法(比如DARTS )的「反向」以示區別。原先的NAS 選擇不同的block,相當於選擇不同的特徵,本文方法是選擇不同的層間連接和選擇特徵揉在一起,分別使用弱學習(weaking learning)和模型訓練(model training)來解。所有可能的連接是加權在一起優化的,每一步選其中一個子集。文章還實驗對比了主流的兩種搜索空間下的表現,即相同cell 堆疊的SS,和更宏觀的由不同block 組合的SS。實驗數據集採用CIFAR-10 ,並遷移到ImageNet,但未達到NAS 模型的SOTA。

短評:靈活連接在權重共享型NAS 當中是個不好解決的問題,本文引入集成學習的方法做了有意義的嘗試。但結果目前看還不太理想。文中坦承方法中最關鍵的點是分攤(amortization),即weak learning 和模型訓練的成本有固定的比例。

6.《含專家經驗的神經網絡搜索》阿里巴巴集團

推薦指數:★★★☆☆

XNAS: Neural Architecture Search with Expert Advice

https://arxiv.org/abs/1906.08031

簡介:本文將NAS 看作是持續學習中的選擇任務。持續學習的主要思想是,世界(數據分佈)一直在變,每次做得不要比平均水平差,和最好的專家相比有所差距,所謂後悔(regret)一點,這是當下知識和未知未來情形的差距,是必須要付的代價。學習目標是最小化reget ,其代表方法是PEA(用專家經驗預測)。標題中X 指EXpert。具體地,將DARTS 的搜索空間看作是PEA 的選擇空間,在優化過程中用專家經驗(reward)對搜索空間做剪裁(清除弱的專家)從而提高穩定性,提升搜索效率。這裡reward 的概念可以類比強化學習中的PG。

短評:本文是DARTS 和持續學習(online learning)的交叉應用,屬於組合式創新。結合點新穎,效果也比較好,CIFAR-10 上達到1.6% 的錯誤率,同量級上比現有NAS 模型更優,在ImageNet 上5M 參數量模型也有76%,屬於比較好的結果。

7. 《高效的用於目標檢測的通道級神經網絡搜索》中國科學院大學,商湯,智能感知與計算研究中心

推薦指數:★★★☆☆

Efficient Neural ArchitectureTransformation Search in Channel-Level for Object Detection

https://arxiv.org/abs/1909.02293

簡介:本文提出叫做NATS 的方法,在復用現有分類網絡模型結構和權重基礎上,為目標檢測做變形設計。主要利用空洞卷積dilation(dx,dy)的特性,在不改變權重的情況下,將普通卷積轉化為多個不同channel 輸出的子空洞卷積,最後在channel 層面做結構優化,優化方法為GD。

短評:本文是DARTS 的細化,將op 級推進到channel 級,並用於OD ,且是對主幹網的搜索,效果比ResNet50主幹網模型在COCO 數據集上平均提升1 個點左右。復用分類結構和巧妙使用dilation,可以視為一種對已有模型的優化方法。

總結

以上就是NeurIPS 2019 公布的7 篇NAS 論文簡要分析。由於DARTS 的開源,掀起了一波NAS 熱潮,在相關領域的研究者結合原有方法和DARTS,在不同任務(主動學習、IoT、目標檢測、剪枝)上做了跟進。值得注意的是DetNAS,將One-Shot 路線應用於目標檢測,這是一個標誌性事件,筆者大膽預測NAS 將會是未來視覺等各分領域的SOTA 收割機。

小米AutoML 團隊招聘

掌握NAS 技術最好的方法,並不是一篇篇擼paper,悶頭實現,而是加入最前沿的已經有積累的團隊,快速切入,一起攻佔深度學習下半場制高點。筆者實習的小米AutoML 團隊從今年初提出了MoreMNAS和FALSR,到最近在兩個月間發佈的三部曲FairNAS,MoGA,SCARLET,對原有技術不斷迭代更新,成果連連,引起了業界的廣泛關注。好消息是團隊最近正在大力招聘中,有意向的同學請註明暗號「專知」,發簡歷給[email protected],社招/校招/實習均可

-END-