遷移學習前沿研究亟需新鮮血液,深度學習理論不能掉鏈子
- 2019 年 12 月 31 日
- 筆記
出品 | AI科技大本營(ID:rgznai100)
【導讀】人類可以從很少的樣本中學習,顯示出了人類卓越的泛化能力,而這一點學習演算法仍遠做不到。當前,最成功的模型需要大量標記好的數據,但是這些數據昂貴且難以獲取,成為實踐中使用機器學習的最大障礙之一。最近的研究表明,當前的演算法幾乎不能對訓練期間看到的數據做泛化。在這種情況下,遷移學習顯示出巨大潛力,其目的是更有效地利用以前獲得的知識來學習新任務。
在本篇系統綜述中,作者採用了定量方法來選出對該領域的重大進展,並使用文獻計量學耦合性度量來識別出來研究的前沿。另外,本論文還進一步分析了該領域的「經典」與「前沿」之間的語言差異,並預測了有潛力的研究方向。
1 引言

(a)

(b)
圖1:過去10年中有關遷移學習的研究成果(a)和引文(b)的演變,以及具有高確定性係數的指數增長預測

儘管2018年的出版物數量有所減少。在(b)中,被引用次數最多的前20名論文幾乎佔了引文的一半。(數據來源:Web of Science,2019年3月)
這顯示出遷移學習(TL)的巨大潛力,這種方法旨在利用先前的經驗來有效地學習新任務。在實踐中,TL 傾向於專門應用,其中遷移方法是所用學習演算法的簡單擴展(torrey)。如此重要但缺乏統一的方法和理論,表明這是一個有潛力的研究領域。正如吳恩達所說:「遷移學習將成為跨行業機器學習成功的下一個動力」。從這個角度來看,人們對此主題的興趣日益增長是可以理解的(圖1)。
1.1 目標
我們的研究問題是:
- 遷移學習的研究前沿是什麼?
- 是否可以根據文獻計量學進行此評估?
為了回答這些問題,我們將首先回顧文獻並揭示該領域的主要貢獻以及它們之間的相互關係。
1.2 貢獻
- 我們使用TEMAC框架(第2節)介紹了有關遷移學習的文獻的最新系統綜述。這種方法幫助我們專註於具有較大影響力貢獻。
- 我們擴展了TEMAC,使用ScatterText(kessler2017scattertext)分析摘要的語言變化,據我們所知,這是此可視化工具的原始用法。
- 在文獻計量分析下,我們確定了研究前沿的方向以及該領域尚待解決的問題。
1.3 概述
在本簡介中,我們將介紹相關作品。在下一部分(第2部分)中,我們將解釋研究方法和定量分析以支援我們的發現。在第3節中,我們在《文獻回顧》中給出了結果。未解決的問題將在第4節中討論。最後,我們在第5節中總結,提出針對我們研究問題的答案。
2 方法:採用定量方法進行文獻回顧
我們的文獻綜述使用mariano2017revisao(TEMAC)的文獻計量方法,以為文獻選擇提供定量支援。
TEMAC包含:
- 研究準備;
- 數據表示和相互關係;
- 細節、綜述和驗證。
2.1 研究準備
3月 nth31日,對圖2所示的Clarivate Analytics Web of Science(WoS)進行搜索,結果找到了1,289篇文章。值得注意的是,對該主題的興趣正在上漲(圖1),並且可以預測,三年內文章的數量將翻倍(指數增長,確定係數:

)
{tcolorbox} [colback=yellow!5!white,colframe=gray!75!black,title=Results: 1,289 (from Web of Science Core Collection)] You searched for: TOPIC: (『『transfer learning』』) Refined by: WEB OF SCIENCE CATEGORIES: ( COMPUTER SCIENCE ARTIFICIAL INTELLIGENCE ) AND LANGUAGES: ( ENGLISH ) AND RESEARCH AREAS: ( COMPUTER SCIENCE ) Timespan: 2009-2019. Indexes: SCI-EXPANDED, CPCI-S, ESCI. Figure 2: 「10yearsSearch」: Search parameters on Web of Scienc
第3.5節(研究前沿)僅對近期研究(圖3)進行了搜索。
{tcolorbox} [colback=yellow!5!white,colframe=gray!75!black,title=Results: 384 (from Web of Science Core Collection)] You searched for: TOPIC: (『『transfer learning』』) Refined by: WEB OF SCIENCE CATEGORIES: ( COMPUTER SCIENCE ARTIFICIAL INTELLIGENCE ) AND LANGUAGES: ( ENGLISH ) AND RESEARCH AREAS: ( COMPUTER SCIENCE ) AND PUBLICATION YEARS: ( 2019 OR 2018 OR 2017 ) AND DOCUMENT TYPES: ( PROCEEDINGS PAPER ) Timespan: 2009-2019. Indexes: SCI-EXPANDED, CPCI-S, ESCI. Figure 3: 「3yearsSearch」: Search parameters for frontier analysis
2.2 數據表示和相互關係
在此階段,我們進行分析(請參閱第3.3節):
- 引用最多的文章(圖6);
- 文章數量逐年演變(圖1(a));
- 引文逐年演變(圖1(b));
- 出版和引用最多的作者(圖6);
- 出版和引用最多的會議(圖6);
- 出版和引用最多的機構(圖6);
- 按研究產出劃分的國家(圖6);
- 關鍵字頻率(圖10和12)。
2.3 綜述與驗證
- 共同引文分析:共同引文測量在同一參考文獻目錄中引用兩篇論文的頻率,並假設它們是同一「知識結構」的「片斷」。因此,共引分析通過確定有影響力的作品來描述研究領域的知識傳承,但由於這些作品被引用的時間較短,所以不算在研究前沿(Vogel2012)。
使用免費軟體VOSviewer(VOSviewer)對「 10yearsSearch」所選文章引用的作品進行聚類。這樣,確定了三個知識集群(圖5)。
- 雙耦合分析:兩篇論文至少有一個共同的參考文獻時會發生文獻耦合。因此,如果論文的參考文獻重疊,則認為它們是耦合的(Vogel2012)。由於可以在被引用和被引用的作品中按時間順序排列,文獻耦合使我們能夠繪製研究「迭代」地圖,從而確定研究的前沿領域。有一點要注意,在這種情況下,處於前沿只是時間上的概率,並不意味著這是一項有前途的工作。定量方法的這一局限性指向需要定性補充以識別「未來的經典」。
在TEMAC框架中,文獻耦合的時間不應超出最近三年。在我們的分析中,我們限制時間為2017年至2019年3月期間會議記錄中選定的作品(圖3),假設這些作品的評審和出版時間較短,因此代表了該領域的更新的內容。
- 文本分析(帶有tf-idf的詞袋):在此分析中,文章被視為詞袋,並且使用tf-idf的概念來定義哪些單詞可以更好地識別每篇論文。例如,相對於那些解釋「 10yearsSearch」文章的人來說,哪個詞更好地解釋了前沿研究(見圖12)。指標tf-idf定義為:

tf(t.d)是在文件d中單詞t的頻率,idf(t,D )表示在文件D(語料庫)中t的逆文檔頻率。

N:文件N=|D|中語料庫的大小

t出現的文件數量(即

為了避免該術語不在語料庫中而被零除,將分母調整為:

tf-idf 度量是可視化工具 ScatterText(kessler2017scattertext)的基礎,該工具用於生成圖8和12。
3 文獻回顧
3.1 遷移學習歷史簡介
自 1995 年在 NIPS 上一個主題為「學習如何學習」的研討會上討論了機器學習保留和重用先前獲得的知識的必要性時,關於遷移學習(或)的研究,儘管有時用不同的名稱來稱呼(學習如何學習、終身學習、知識遷移)吸引了越來越多的關注(PanYang)(見圖1)。
2005 年,DARPA 的一個項目首次使用了「遷移學習」一詞,該術語的定義是從一個或多個源任務中提取知識並將其應用於目標任務的目標(PanYang)。在 Web of Science 上進行的搜索可以確認,最早使用「遷移學習」一詞的文章出現在 2005 年。
2012 年,Alex Krizhevsky 及其團隊在 ImageNet 挑戰賽(ILSVRC)中使用的深度神經網路比第二名勝出 41%,這一驕人的成績激發了深度學習研究呈指數級增長。此結果凸顯了數據可用性對於人工智慧發展的重要性,使得遷移學習進入一個嶄新的時代。儘管使用像 ImageNet 這樣的大數據集學習的成本很高,但事實證明,訓練有素的模型很適合初始化不同任務的模型(Ruder2019Neural,donahue2014decaf)。這種「 fine-tunning」的方法可以在許多任務上以較少的數據量獲得良好的結果(請參見第 3.4.3 節)。
目前,在著名的會議(例如 CVPR、ICCV、ICPR 和 NeurIPS)上,遷移學習已經是一個常見的話題(請參見圖 6,Top 10 會議)。
3.2 注釋和定義
遷移學習是一個關於領域和任務的概念。根據 Pan Yang 的說法,domain D 由一個特徵空間

和編輯分布

組成,叢中得到樣本

。例如,在影像分類問題中,X 是具有一定尺寸和通道數量的所有可能影像的空間,

是一張影像,S 是訓練數據集。
如果 domain D=

任務 T 可以通過條件分布

進行統計定義,即


是

時的目標函數,預測其對應的

假設

是源域,

是源任務,D_T 是目標域,

是目標任務,遷移學習的目的在於使用

和

的知識學習

中的函數

,其中

,

3.3 遷移學習研究概述
Pan,S. 是被引用次數最多的作者(參見圖6,Top 10 作者),被引用 2706 次。影響力主要源於「遷移學習調查」(A Survey on Transfer Learning,PanYang),該調查是該領域引用次數最多的文章,被引用 2240 次。本文的主要貢獻是為遷移學習提供了定義、注釋和分類法,這對於研究界具有重要意義。這篇文章發布在影響因子為 2775 的 IEEE 期刊上,在 InCite JCR 的「電腦科學」,「人工智慧」類別中排名第 33 位,這意味著它不是遷移學習研究的常用出版物。
中國是該領域中生產力最高的國家,其次是美國和英國。
大多數文章在會議上發表,佔比 63%。CVPR 是遷移學習相關文章發布最多的會議,而 ECCV 雖然在產量方面僅排名第四,但卻是被引用次數最多的會議。值得注意的是,電腦視覺會議一直是遷移學習研究的最熱門場所。另外,值得注意的是,在此列表中缺少以 NLP 為重點的會議,在引用最多的 20 篇文章中,沒有一篇和語言相關。
3.4 經典論文

(數據來源:Web of Science(2019 年 3 月),工具:VosViewer(VOSviewer)
圖 4:*
圖5:共引分析的知識集中點。集中點表示在 10yearsSearch 文章的參考文獻列表中被協同引用的論文。)

圖 6:遷移學習研究回顧
使用 VosViewer 進行的共引分析顯示遷移學習相關知識集中在 3 個集群上,可以看到和時間有著很大的關係,可以視為幾波波浪:第一波浪潮包含 2011 年之前的出版物(模式是 2006 年),圖5 中以黃色顯示;第二波浪潮從 2011 年到 2014 年(2012 年模式)為紅色;第三波,也是最後一波,圖中的綠色表示從 2012 年至今的文章(2014 模式)。
3.4.1 第一波
這一波的主要特徵之一是其理論的加強。其中一些論文呈現了整個遷移學習的類別:thrun1996learning 和 Caruana1997 引入了多任務學習,以及輔助任務帶來的歸納性 bias 會幫助學習收斂的思想;Chapelle:2010 年有關半監督學習的書;Raina2007 關於自學學習;Vapnik1998 奠定了統計學習理論的基礎。
這一次浪潮的另一個組成部分是「域適應」文章,它們旨在了解降維的潛在特徵,假設在潛在空間中源域和目標域相似,例如 ando2005framework,Blitzer:2006,DAS:1610075.1610094和 DaumeIII2006。
最後,這一波浪潮中被引用最多的文章是 surveys::PanYang,Taylor:2009:TLR:1577069.1755839;並非巧合,這些文獻是在這波浪潮末期出版的,包含了當時的研究材料。
3.4.2 第二波
有關領域適應的文章是第二次浪潮的主流。有些人將注意力集中在諸如 Pan2011 提出的潛在特徵上,但是大多數文章嘗試從源域中選擇與目標域相似的樣本:BenDavid2009 從理論角度探討了域分布的相似性;SiSi2010 試圖最小化域之間的差異;這種工作趨勢的共同點是基於樣本分類器的方法,主要是支援向量機(SVM):Yang2007,Bruzzone2010,LixinDuan2012 等。
我們還發現了有關無監督域自適應的文獻:BoqingGong2012,Fernando2013。
值得注意的是,在我們搜索的文章中,這波浪潮沒有以調查 「結束」。調查相關的一個很好的例子是《視覺應用領域適應綜合調查 》(A Comprehensive Survey on Domain Adaptation for Visual Applications Csurka2017)中的章節。不幸的是,這項工作未被 WoS 索引,因此在我們的搜索結果中找不到。
3.4.3 第三波
第三波包括深度學習環境中的遷移學習方法,我們可以將其稱為深度遷移學習。
在這部分,我們可以找到經典的深度學習文獻,例如:Hinton2006,這也許是一篇關於深度學習的開創性文章;Bengio2009 提出了表示學習和學習表,列出了可以依次學習的任務項,複雜性逐漸提高。LeCun2015 的論文回顧了關於審查深度學習的本質。此外,我們還可以找到alexnet 在 AlexNet 上發布的文章,該文章在 2012 年 ImageNet 挑戰賽(ILSVRC)上比第二名多出 40% 的優勢獲冠軍,從而孕育出當前的深度學習 「淘金熱」 。
這一浪潮中的一些文章是關於大型數據集的,這是深度學習成功的重要組成部分:
Deng2009 介紹了 ImageNet,並建議可以將在 ImageNet 上學習的模型用於更有效地學習新領域。
Everingham2009 的主題是 Pascal VOC。Russakovsky2015 分析了 ImageNet 對不同電腦視覺問題的影響,並分析了遷移學習的作用。
還有一些文章介紹了使用預訓練模型進行特徵提取或可以在訓練後使用的模型架構:Girshick2014,介紹了 R-CNN 模型 He2016、ResNet 和 simonyan2014very 對象檢測;JialueFan2010 介紹了人員追蹤;Long2015 則是關於語義分割的論文;等等。
遷移學習在深度學習中變得無處不在,以致 mahajan2018 中提出如果不使用 ImageNet 在電腦視覺問題中預先訓練模型將寸步難行。
因此,我們很難找出一篇專註於遷移學習的文章。值得一提的是:glorot2011domain 建議使用深度神經網路來學習域之間的通用表示形式;donahue2014decaf和Oquab:2014:LTM:2679600.2680210 則為微調方法提供了理論支援。
3.4.4 文本分析結果
被引用 Top 20 的文章幾乎佔據了被引用論文的一般(圖 1b)。因此,我們假設對「 10yearsSearch」的此子集進行文本分析可以很好地代表整體。
通過不同的方法,我們以與以前相同的方式大致進行聚類。在圖8中,每個象限代表圖5中的一個群集。這有力地支援了該分析論證。
在圖10中,可以看到圖8中每個象限的「詞雲」 。這些術語與第3.4節的定性分析非常吻合。

數據來源:WoS(março/ 2019)工具:ScatterText(kessler2017scattertext)
圖7: *
圖8:通過詞袋的接近程度可視化的前20名最常被引用的文章。

數據來源:WoS(2019年3月)。工具:TagCrowd
圖9: *
圖10:圖表8所有象限的詞雲。
3.5 研究前沿
為了確定遷移學習中的研究前沿,我們進行了兩項分析:
3.5.1 文字分析
我們使用 ScatterText (kessler2017scattertext)進行可視化,對能夠更好地代表術語「3yearsSearch」和更好地代表「10yearsSearch」的術語進行對比,得到圖12。
與研究前沿更相關的術語包括是深層的、神經的、影像和諸如 cnn、受過訓練的網路和數據集等辭彙。這與我們對第3.4.3節中的第三波浪潮的分析相符。與「 10yearsSearch」更相關的術語是:分布、域、適應、輔助(來自輔助任務)、內核;這與我們在第3.4.2節中第二波浪潮中的發現的非常吻合。

圖11: *
數據來源:WoS(2019年3月)。工具:ScatterText(kessler2017scattertext)
圖12:在遷移學習上下文中對「前沿」術語與「經典」術語的可視化分析
3.5.2 書目耦合
使用 VosViewer (VOSviewer)分析「 3yearsSearch」文章進行書目耦合分析的結果如圖 14 所示。

數據來源:WoS(2019年3月)。工具:VosViewer
圖13: *
圖14:書目耦合分析熱圖
集群中包含 Lucena2017 和 Rezende2017,分別是關於深度卷積網路新問題、人臉反欺詐和偽影像檢測上的應用。Venkateswara2017 和 Ge2017 提出了使用深度學習的新領域適應方法。顯然,該領域的每項工作都與深度遷移學習有關。
3.5.3 未來的經典
如前所述,使用書目耦合進行的定量分析可以顯示哪些文章處於前沿(深度遷移學習中的那些),而不代表和這些文章具有潛力。為此,對候選文章進行定性分析至關重要。
在這種情況下,我們在這裡重點介紹一些我們認為有可能成為未來經典的作品:
- Taskonomy:CVPR 2018 的最佳論文之一,本文探討了任務之間的關係並對其進行了量化,建立了可用於定義訓練序列的圖表,從而可以減少特定任務的樣本複雜度。
- ulmfit:通過利用遷移學習,對於某些 NLP 問題,ULMFit 模型的性能比以前的水平提高了18% 至 24%,並凸顯了 alexnet 對於電腦視覺的意義。
- CycleGan:提出針對無監督域傳輸的生成對抗網路(GAN)。對於 GAN 在遷移學習中的潛力,我們非常樂觀。
- Ruder2019Neural:提出了一種新的分類法,用於在 NLP 上下文中進行遷移學習。
4 未解決的問題
本系統綜述使我們能夠感知到在現在積累的知識上的一些差距。這些未解決的問題包括:
- 指標:沒有用於遷移學習的特定指標。
- 分類法:當前分類法(PanYang)過於關注領域適應,而對歸納遷移學習的關注卻很少。另外,我們需要更多像 GAN 和自動編碼器一樣的更新穎的想法。
- NLP:除了 Ruder2019Neural 之外,關於遷移學慣用於 NLP 的知識還很少。
- 理論:在第一波浪潮中,理論的作用是希望找到有潛力的方法。今天,有些方法在實踐中行之有效,但卻無法從理論上得到解釋。知道為什麼也很重要。
5 結論
這篇系統的文獻綜述指出了深度遷移學習是遷移學習的研究前沿。這是一個非常廣泛的子領域,包括:a)使用預訓練模型作為新應用程式的特徵提取;b)查找域之間的潛在表示;c)域之間無監督的樣式轉換;等等。在這項工作中,我們以 TEMAC 方法為指導,並用其他分析工具進行了擴展,以驗證我們的結論。這樣,我們證明了通過對書目數據進行基於定量的分析方法來確定研究前沿的可能性,這種方法使我們能夠得到研究問題的答案。
在以後的工作中,仍然需要解決一些重要的問題:首先,PanYang 分類法已經過時,很顯然,這種方法側重於十年前已經完成的工作,且沒有為前沿研究文章分類提供太多指導。此外,系統的評價方法還有待改進:1)可以包括 Scopus 和 Google Scholar 等其他基礎方法;2)我們可以擴展研究查詢,以囊括其他術語,如多任務學習、域適應,甚至一些不再使用的術語,如學習如何學習和終身學習; 3)它可以涵蓋最重要的文章的摘要,最好採用像五個W和一個H (hohman2018visual)這樣的框架 。
最後,從這篇綜述中,我們很清楚地意識到需要改進深度學習的理論,以更好地解釋深度神經網路中知識遷移的方式和原因。
參考文獻:





原文鏈接:
https://www.arxiv-vanity.com/papers/1912.08812/
(*本文為AI科技大本營整理文章,轉載請微信聯繫 1092722531)