CVPR 高引論文往往無緣 Best paper,「最佳」一定「高引」嗎?
- 2019 年 10 月 7 日
- 筆記
本文來自公眾號學術頭條,AI科技評論獲授權轉載,如需轉載請聯繫原公眾號。
我們對60多個頂級國際會議的最佳論文和高引論文進行了分析,驚訝的發現只有10%的最佳論文最後成了真正的高引論文。是評獎委員會選錯了嗎?不同研究領域的最佳論文和高引論文又有什麼特點呢?數據表明SIGGRAPH、SIGSPATIAL以及硬件等會議更「靠譜」(MAP值普遍大於0.5);也有很多會,比如人工智能會議NIPS、CHI、CVPR、KDD、AAAI、ACL、IJCAI等會議的高引論文往往無緣最佳論文。來查查你的會議表現吧:https://aminer.cn/bestpaper
獎項是計算機領域每個學術會議的重頭戲,每個會議的最佳論文獎可謂是學術界的頂級獎項之一。一篇最佳論文的評選標準往往包括論文的原創性、創新性、深度、質量、技術得分、領域內的潛在影響力等各種標準,被評選為最佳論文也就意味着得到了大會評審人和組織方的最大認可。
如果說最佳論文是會議組織方與同行評審給出的最優獎勵,那麼論文的引用次數則可以看作是大眾研究者給予的客觀評價。
引用次數一般被用作衡量一篇論文重要性的粗略指標,一篇高引論文好比高居「山頂」。那麼高引論文與最佳論文有直接的關係嗎?最佳論文的引用量是否就一定高呢?
這是一個值得探討的問題,因為它可以映射出學術評價的眾生相。
我們通過MAP(Mean Average Precision),一種評價會議評選最佳論文準確度的指標,計算出該會議年度的MAP得分,客觀地反映了高引論文與最佳論文的關係。

其中#bestpapers表示前n篇引用量最高的論文中包含最佳論文的個數,n為從1到3。
按照MAP多年的平均值來看,FPGA的MAP均值為0.3704,說明了該會議多年來評選出的最佳論文引用量排行都居於高位。作為FPGA領域最具影響力、歷史最悠久的學術會議,FPGA國際大會始終引領着整個FPGA工業界的技術創新。

在有數據顯示的1996至2018年的18年間,FPGA 1999的MAP值為1.0,該年度評選出的5篇最佳論文全部排在當年論文引用量的前六位;FPGA 2000的 MAP值為0.8889,該年度評選出的3篇最佳論文全部位於當年論文引用量的前十位。
按照MAP每一年的數值來看,CVPR 2016 的MAP得分為0.6111。最佳論文得主《Deep Residual Learning for Image Recognition》一文,正位居於CVPR近五年來高引論文榜首,該文的引用量高達26356次。
出自FAIR 「AI天才」何愷明的《Deep Residual Learning for Image Recognition》,最早發表於2015年,在當年ImageNet 大規模視覺識別挑戰賽(ILSVRC)中擊敗谷歌、英特爾榮獲第一,成為舉世聞名的152層深度殘差網絡ResNet-152;2016年該文再次獲得CVPR最佳論文獎。
這篇論文中提出的ResNets目前已經成為計算機視覺領域的流行架構,同時也被用於機器翻譯、語音合成、語音識別和AlphaGo的研發。
可以看出,該文的優秀程度從獲獎次數還是引用次數上都得到了充分體現,而它的影響力自然不言而喻。
ICML2018的MAP分值也為0.6111。最佳論文《Obfuscated Gradients Give a False Sense of Security:Circumventing Defenses to Adversarial Examples》,目前的引用量為426,在2018年ICML發表論文中引用量排於首位。
在這篇論文中,研究人員發現,針對對抗性樣本的防禦通常使用混淆梯度,這造成了一種虛假的安全感,實際上這種防禦很容易被繞過。該研究描述了三種防禦混淆梯度的方法,並展示了哪些技術可以繞過防禦,這些發現可以幫助那些依賴混淆梯度來防禦的組織強化他們當前的方法。在該文中,作者還評估了ICLR 2018接受的9篇論文,並測試了它們面對對抗樣本的穩健性。實驗結果證實,在8篇有關對抗樣本的防禦機制的論文中,有7篇的防禦機制都抵擋不住論文提出的新型攻擊技術,防禦水平有限。
KDD 2012的MAP值為 0.2778。當年的最佳論文獲得者《Searching and mining trillions of time series subsequences under dynamic time warping》,目前的累計引用量為622,在2012年KDD發表的論文引用量排行中位居第二。
該文主要為了解決time series問題中子序列相似度搜索裏面的計算瓶頸問題。作者指出在本文完成之前,尚未有任何time series的子序列搜索研究能夠拓展到trillion級別的數據,並且傳統的time series子序列問題都是用較為易於計算的歐式距離算法來檢測相似度,而本文則提出一個反直覺的論點:在大型數據集上,使用DTW算法實際上要比簡單的ED(歐氏距離)算法來的要快速,並且在比之前所有實驗里用到的數據加起來還大的數據集上驗證了自己的觀點。
ICRA2012 MAP得分是0.2778。最佳論文《SeqSLAM:Visual route-based navigation for sunny summer days and stormy winter nights》累計引用量為507,位居ICRA2012發表論文引用量排行第二。
SeqSLAM由澳大利亞IEEE fellow Michael Milford與Gordon Fraser Wyeth提出,是當時第一個在極端環境變化下還能實現基於視覺的定位系統。SeqSLAM的提出具有里程碑式的意義,不論是從思路還是驗證結果,或是從論文引用量還是後續頂會都有對於這個系統的繼續研究。
AAAI2004 MAP分值為0.1111。《Learning and inferring transportation routines》榮獲當年最佳論文,該文的累計引用量為964,在AAAI 2004發表論文引用量排行第三。
最佳論文因其重要的研究價值和較大名氣,往往會成為眾多研究者的重點關注對象。從以上數據可以看出,最佳論文的引用次數相對較高,它與論文引用次數看似成正相關。
在2009年至2015年的七年間,NeurIPS的MAP平均值為0.0873。除了NeurIPS2011的MAP值為0.6111,最佳論文《Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials》高居當年的論文引用量排行榜首,引用量為1503次;其他6年的MAP值均為0,從我們目前的評價算法來看,也就意味着當年會議評選出的最佳論文準確度為零。

NeurIPS2012發表的《ImageNet Classification with Deep Convolutional Neural Networks》一文,作者Alex Krizhevsky是神經網絡之父Hinton的學生,自2012年發表至今累計引用量高達44218次,實屬經典之作。而當年被評為最佳論文的《Discriminative Learning of Sum-Product Networks》與《Structure estimation for discrete graphical models:Generalized covariance matrices and their inverses》,他們的引用量均只有一百多。
《ImageNet Classification with Deep Convolutional Neural Networks》中提出的大名鼎鼎的AlexNet,在2012年的ImageNet比賽中榮獲冠軍,其官方提供的數據模型,準確率達到57.1%,top 1-5 達到80.2% ,與傳統方法相比,AlexNet 體現出了極大的優勢,可以說是近年來深度學習浪潮的開山之作。也正是在那年之後,更多更深的神經網絡被提出,比如優秀的vgg、GoogleLeNet等。
自然語言處理的頂會ACL,在有數據統計的18年里,ACL的MAP平均值為 0.0463。其中ACL 2003年的MAP值為0.6111,ACL 2002年與2005年的MAP值均為0.1111;其他15年中ACL的MAP值均為0。

其中,位於ACL 2001年高引論文榜首的《BLEU:a method for automatic evaluation of machine translation》一文,引用量高達9433次,而當年的最佳論文《Fast decoding and optimal decoding for machine translation》、《Immediate-head parsing for language models》分別為320與390。
再來看看ICCV ,在有數據顯示的1998年至2015年的九年里,ICCV的MAP平均值為0.0123。除了2003年最佳論文獲得者《Detecting Pedestrians Using Patterns of Motion and Appearance》排在當年的論文引用量第三位,引用量為2715次,其他8年里ICCV的MAP值均為0。
其中,發表於1999年的《Object Recognition from Local Scale-Invariant Features 》一文,引用量高達17307次。榮獲ICCV最佳論文的《Euclidean Reconstruction and Reprojection Up to Subgroups》與《A Theory of Space Carving Object Recognition from Local Scale-Invariant Features》,他們的引用量均不到一百。
對於最佳論文來說,為什麼這些科研突破都收穫了會議的最高獎勵,卻無法躋身高引論文榜首?還有很多會議都存在這種情況,高居「山頂」的論文往往都不是最佳論文。也許很難明白這其中的原因究竟是什麼?但這並不代表最佳論文的質量或者是影響力就差。
據《自然》雜誌所作的一項報告解釋了一部分原因。比如,許多關於研究方法的論文「成為了一種標準引用,好讓其他科學家明白作者在做的是什麼樣的研究」;另一種就是很多真正的基礎性發現(比如愛因斯坦的狹義相對論)很快進入了課本或者被當作耳熟能詳的術語,不需要添加引用就能直接納入正文,因此造成了他們的引用次數低於其應得水平。
另外,引用次數中也充滿了其他干擾因素。比如,論文引用的總量增加了,但發表時間早的論文有更多的時間來累積引用量。某些領域的學者更傾向於頻繁地引用他人的研究成果,某些領域則不然。而且,並非所有領域發表的論文數量都是一樣的。
雖然以引用次數評價一篇論文質量的高低還存在種種不足,但這種 「排名」依然有其價值,至少這些高引論文經受起了「時間和群眾的考驗」。他們從龐大的學術文獻中脫穎而出,他們所提出的方法結論往往都具有里程碑的意義,在其所在的領域都存在巨大的潛在影響力,為後來的研究者提供了學習參考的典範。
同時,它至少可以提醒我們科學知識的本質:為了取得激動人心的科學進步,研究人員依賴於相對默默無聞的論文來描述他們的實驗方法、數據和成果。