套娃?UC伯克利、哈佛等联名投稿ICLR抨击ICLR评审存偏见,程序主席:好稿,拒了吧

今天,ICLR 2021公布了论文接收结果。其中,ICLR 2021 共收到2997篇论文,录用论文数量为 860 篇,接收率为 28.7%(各位小伙伴中了吗?,详情参见今天推文第二条)。
与此同时,AI 科技评论在ICLR 2021的投稿论文中发现了一篇有趣的论文:“An Open Review of OpenReview:A Critical Analysis of the Machine Learning Conference Review Process”。
论文链接://openreview.net/pdf?id=Cn706AbJaKW
AI科技评论找到了这篇论文的arXiv版本,发现这是由UC伯克利、普林斯顿、哈佛、马里兰等院校合作完成的研究。

论文链接://arxiv.org/pdf/2010.05137.pdf
虽然论文因为“主题不是关于AI研究”而被拒,但论文的探讨内容很有意思:研究者团队(匿名)对2017年至2020年 ICLR 的所有投稿论文及其评审过程进行了全面分析,对评审分数与接收结果中的可重复/随机性进行了量化,希望探讨 ICLR 评审分数是否能如实反映论文研究的影响力。
近几年,随着参与机器学习研究的人员数量急剧增长,相信很多顶会投稿者会有这样的一个疑惑:顶会评审人员在给出分数,决定接收或拒绝时,会不会存在随机给分、评审时带偏见的问题呢?毕竟论文投稿数量几乎呈指数爆炸性增长。
-
通过使用蒙特卡洛方法对评审得分进行复现,他们发现,增加审稿人数并不能有效降低评审结果的随机性;
-
-
近年来,评审决定(接受/拒绝)的可复现性、评审分数与论文影响力之间的关联性以及审稿人之间的共识在不断下降;
-
评审过程存在“声望”偏见,领域主席更倾向接收权威机构的投稿论文;此外,投稿作者的知名度越高,被接收的概率也越高;
-
作者为女性的论文得分往往低于男性,且总体接收率较低。
论文如何开展研究?
在这篇论文中,研究者从OpenReview等多个来源抓取数据,收集了2017年至2020年期间所有ICLR投稿论文的题目、摘要、作者名单、邮件、分数与评审意见。
其中,2017年至2020年提交到ICLR的论文一共有5569篇:ICLR 2020 有 2560 篇,ICLR 2019 有 1565 篇,ICLR 2018 有 960 篇,ICLR 2017 有 490 篇。论文借助OpenReview的作者简介与开源的World University and Domains数据集建立了作者及其所属机构的对应性,并使用CS Rankings对学术机构进行排名。
此外,研究者也在arXiv上查找了在评审之前首次以非匿名形式出现的论文,一共发现了 3196 篇论文,其中 2020 年有 1415 篇。
研究者使用SemanticScholar对论文的引用量与影响力进行整理,内容包括:每位作者的论文发表数量,单篇论文的引用数量,以及单个作者的引用数量。
为了研究评审过程中的性别差异,研究者对 ICLR 2020 投稿论文的第一作者和最后作者制作了性别标签,根据个人网页上出现的性别代词(he/she),或依据名称的性别尝试分配标签。最终,他们针对 2560 篇论文制作了 2527 个标签。虽然标签存在高度的复杂性与不确定性,但研究者认为这并不影响他们研究论文作者性别对评审分数的影响。
至于投稿论文的主题分析,论文通过关键字来识别论文主题。论文主题包含:理论,计算机视觉,自然语言处理,对抗性ML,生成建模,元学习,公平性,泛化,优化,图,贝叶斯方法和其他等。
总的来说,在 ICLR 2020 中,有1605篇论文属于上述主题,其中772篇同时属于上述多个主题。
在建立评审过程的基准时,研究者通过几项指标来衡量评审过程的质量,包括评审的可复现性,以及评审分数与论文影响力之间的相关性。
评审结果的可复现性一直是大家关注的话题,许多研究人员担心论文评审存在高度随机性。
2014年,Lawrence 与 Cortes 曾进行一个著名的研究:“NIPS实验”。实验发现,如果将已接收论文再评审一遍,只有43%的会议论文会再次被接收。
为了建立评审可复现性的清晰指标,论文使用蒙特卡洛模拟方法来估算“NIPS实验”的衡量指标:如果重新评审一篇已被接收的论文,这篇论文是否会再次被接收?
模拟的采样来自 ICLR 2020 的2560篇投稿论文的评审分数。研究者使用逻辑回归模型来预测领域主席作决定(accept/reject)的随机性,并作为论文平均评审分数的函数。该模型使用2020年的论文数据进行拟合,拟合优度如下图所示:
为了估计可复现性,研究者将论文平均得分的经验分布看作“内生(endogenous)”论文质量的真实分布。模拟论文的步骤主要是:(i)从此分布中得出均值/内生分数;(ii)检查 ICLR 2020 中平均得分相似(在1个unit内)的所有论文,并计算每篇此类论文的评审得分和平均得分之间的差异;(iii)随机抽样3个差异,并将这些差异添加到模拟论文的内生分数中,得到 3 个模拟评审分数;(iv)使用模拟评审分数作为2020 逻辑回归模型的输入,以预测论文是否被接收;(v)使用相同的内生分数生成第二组评审分数,并使用逻辑回归来查看论文是否被第二次接收。
论文使用2017年至2020年的逻辑回归模型分别进行模拟,发现评审的复现性在下降:分数从2017年的75%,逐渐下降到2018与2019年的70%,再到2020年的66%。
其中,计算机视觉论文的可复现性得分最低,为59%,泛化论文的复现性得分最高,为70%,其次为理论论文,得分为68%。
研究发现
论文提到,最近许多会议都试图通过增加每篇论文的审稿人数量来减少作出论文accept/reject(接收/拒收)决策的随机性。最值得注意的是,NeuRIPS 2020 尝试确保绝大多数投稿论文都能获得5条评审。但是,论文通过模拟表明:增加审稿人数并不能有效减少评审的随机性。
研究者将上述的可复现性模型应用于ICLR 2020中的评审得分中,同时增加每篇论文的模拟评审数量,结果如下图所示:
虽然随着审稿人数的增加,复现性得分也在提高,但分数增加的幅度很小:将审稿人数从2人增加到5人,可复现性仅提高3%。此外,即使审稿人数达到无穷大,可复现性得分也不会超过75%,因为做出最终接收/拒收决定的领域主席对论文的录用标准不同。在模拟中,这种不确定性会被逻辑回归模型捕捉到。即使增加审稿人数,领域主席的审稿标准差异仍维持原先水平,但平均得分的标准误差却逐渐下降,复现性得分的变化自然也不大。
因此,论文提出,程序主席应避免为每篇论文分配太多审稿人。相反,每篇论文应该使用少数几位审稿人,使他们有更多时间进行审稿,并预备临时审稿人,以防第一轮评审给出的意见不够清晰。
关于论文评审的结果,接收(Oral)、接收(Spotlight)、接收(Poster)、拒绝等,许多讨论都是关于复现性与随机性。这篇论文提出,无论一个可复现过程多么完美,如果拒收了影响力大、研究具有变革性的论文,那么这个过程也是失败的。一些人认为,ML的评审过程更偏好那些具有理论增量但没有争议的论文,而不是那些具有重大新发现的论文。
为此,研究者想要通过对评审分数进行分析,探索是否论文的分数越高、影响力越大。
该团队使用论文的引用率(将引文计数除以自论文首次在线发表以来的天数)来衡量其影响力。研究证明,除了个别引用数量极高的论文表现出指数增长行为,大部分论文的引用率随着时间的推移大体呈线性增长。
尽管论文的平均分数大致呈正态分布,但论文引用率的分布却严重偏右、偏尾,有些论文的引用数上千,有些论文则几乎为零。为了减轻这种极端现象,研究者使用Spearman的等级相关系数作为衡量评价评审分数与引用率之间非线性关系强度的指标。
他们为每篇论文分配一个“引用等级”(引用率较低的论文数量)和“得分等级”(平均评审分数较低的论文数量),然后计算所有投稿论文的引用等级与得分等级之间的Spearman等级相关系数。乍一看,Spearman相关系数(0.46,p <0.001)似乎表明分数与引用影响之间存在中性关系。但是,他们随即发现,造成这一趋势的原因是:评分更高的论文被会议接收后,随即更容易在 ICLR 的公关宣传中曝光,获得更多引用。下图(图3)可以清楚看到这种趋势,其中,接收论文和被拒论文之间的引用率存在明显差距。
为了规避会议公关的影响,该团队又分别计算接收的Poster论文和被拒/撤回的论文的Spearman系数,结果分别为 0.17 和 0.22 。由于分析的论文数量众多,这些较小的相关性仍具有统计学意义(p <0.001),但影响很小。对图3进行二次检查后,他们在每一个主题的论文中均未发现评审分数与引用率之间存在任何明显联系。Spotlight 论文的 Spearman 相关系数为-0.043(p = 0.66,n = 107),而 Oral 论文的 Spearman 相关系数为-0.0064(p = 0.97,n = 48)。
研究者还提出,距离 ICLR DDL还有很长一段时间就提交的论文很可能是之前在另一个会议上被拒收的论文。他们发现,在 ICLR 提交日期超过 3 个月的论文被接收的概率更高,平均得分也更高。这一结果是根据2017年至2020年的论文提交时间分析所获得,如下图所示:
所以,论文被另一个会议拒收的小伙伴不要泄气,重新提交到 ICLR,中稿率还是很高的!
研究者通过数据分析得知,近年来,ICLR论文的可复现性得分,评审的满意度都在下降,论文可复现性也有下降的趋势。此外,Spearman相关系数从2017年的0.582下降到2020年的0.471。研究者还使用Krippendorf alpha来衡量“评审信度”,结果是alpha值从2017年的56%下降到2020年的39%。
至于背后的原因,研究者认为是:ICLR2020 改变了审稿人使用的评分标准,降低了论文的接收率,这可能也是“论文复现率”急剧下降的原因。研究者通过提高2020年论文评审得分,让接收率与2019年保持一致,对比之后发现论文复现率的变化并不能仅通过降低接收率来实现。
评审过程存在两大偏见
ICLR是否青睐学术机构?研究者在论文中主要考察了机构等级(用CS排名衡量)是否会影响ICLR论文。
图注:排名前100名机构的平均得分,阴影区域表示95%的置信区间
研究者表示,在2020年,至少年有85%的论文的作者是两位以上,机构排名和论文得分之间没有明显的关联趋势。这也意味着,分析公开的评审意见中,很难发现机构偏见,因为有学术机构越有名,论文质量也往往越高。在AC(领域主席)层面,分析偏见则比较容易,因为AC可以控制论文分数,从而做出是否接收的决定。
AC层面的机构偏见,研究者使用了逻辑回归模型进行预测论文的接受程度。研究者发现,即使控制了评审分数之后,排名前十名机构的论文被接受的可能性仍然非常大。
此外,在模型中,研究者还控制了作者的声誉,得出的作者/机构声望和论文接受度的关系如上表所示:作者名望与AC决策之间存在统计上显著的正相关关系。
考虑论文署名的最后一位作者,如果其名望能够接近平均数,那么就能“让”评审多给0.16分。相当于审稿人平均得分增加0.16分的提升,此外,“最“有声望的作者能够让评审多给0.29分。
在模型中,大部分的制度偏差效应由3所大学解释:卡内基梅隆大学,麻省理工学院和康奈尔大学,只从统计学上进行考虑。如果论文是来自卡内基梅隆大学,麻省理工学院和康奈尔大学,那么其得分可能相应的提升0.31、 0.31、0.58。
2020年的ICLR论文中,一共有115个评审,其中有26位有Google或Deepmind的背景。为此,研究者对这些知名机构的论文专门做了调查,根据统计学,其Google和Deepmind的303篇论文和Facebook的110篇论文都不存在明显的评审分数提升。但是,微软的92篇论文却在评审过程中受到了惩罚(-0.5分,p=0.003)。
在评审过程开始之前,在arXiv上发表论文和匿名,哪种方式更能提高分数?为了解答这个问题,于是研究者引入了一个新的指标变量:一篇论文是否在ICLR提交截止日期一周后发布在网上。
仍然用逻辑回顾进行分析,研究者发现,在arXiv上发表的论文(在控制了评审者分数之后)总体上表现较好。
在科学领域,周所周知,男女之间存在差距。工程学科中的女性倾向于将论文发表在影响较大的“领域”,但她们论文引用量往往比较少。而在ICLR中也存在这种情况。在ICLR 2020中,男性论文平均被引用44次,而女性的平均被引只有33次。
研究者在论文中称,总被引用率的下降可以归因于作者资历的差异。据 2019年Taulbee的调查报告显示,女性在高校中的代表性不足(15.7%)。此外,为了消除时间的影响,研究者仅关注2020年ICLR论文,分析发现:到目前为止,男性作者平均获得4.73的引用,而女性中的平均为4.16的引用。如果仅仅第一作者的情况,情况发生了反转。男性第一作者仅获得4.4引用,而女性为6.2。
相对于整个计算机科学领域,女性在ICLR中的代表人数较少。2019年,女性占美国计算机科学博士生总数的23.2%。但是,在美国大学的ICLR 2020收录论文中,只有12.1%的女性是第一作者。尽管女性占美国CS教职人员的22.6%,但在ICLR 2020中,她们仅占12.8%。实验科学中也出现了类似的趋势,在美国排名前10位的学校的论文中,女性占第一作者的12.3%。
在评审过程中也存在性别差异,女性第一作者的录取率低于男性(23.5%比27.1%)。差距体现在个人评论者打分中,如上直方图所示,女性平均得分比男性低0.16分。
那么男女之间的录取率差异和研究主题有关?研究者发现,在同一主题下,男性和女性作为第一作者的论文被接受率分别为27.6%和22.1%。另外,研究者用回归分析了AC在决定论文接受时,是否有性别偏见?回归结果是:根据现有数据,尚未发现AC偏袒的证据。
评审:值得表扬,但你投错地方了
在论文的最后,研究者称,ICLR的可复现性水平(2020年为66%)高于预期,当考虑到更低的接受率(26.5%)时,这似乎与评审是 “随机 “的概念相矛盾。许多作者在向不同的会议重新提交论文时,发现“评审结果”波动很大。研究者推测,有以下几个原因:
1、不同会议使用的论文匹配系统有差异,导致匹配不同群体的审稿人,因此会有重大的会间随机性的来源。
2、研究人员背景的不同,意味着一篇论文的审稿人与作者的价值可能不匹配。
3、当前主流会议的接收率较低,当优秀论文的数量大于录用论文的数量时,难免会出现决定的高度主观性,从而对“某类”论文产生偏见。
此篇论文被投稿到了ICLR 2021上,在rebuttal阶段,经过研究者与评审几个回合的“交手”,最后程序主席拍板,决定拒绝这篇论文。
有审稿人想接收这篇文章,因为他非常赞赏论文作者的细心与努力。也有审稿人认为,如果在会议上看到这篇论文,将会非常有价值。
但我们还是决定拒绝这篇文章,因为论文表达的并不是典型的ICLR研究。如果将这篇论文归到“表征学习的社会考虑,包括公平、安全、隐私”这一主题,似乎也不适用。因为分析的主题是ICLR会议,而不是表征学习。
在评审过程中,审稿人对这篇论文提出了许多问题,作者也解决了一些问题。但在另一些问题中,他们“辩解”了自己的观点。
总而言之,这篇论文不是针对 ICLR 研究的,所以评审们的共识是“拒绝”。不过,这份论文对社区来说,非常价值。应提醒各委员会注意该论文,并以某种方式在大会上提供该论文,并承认该文件是一份非常有用的论文。
//openreview.net/forum?id=Cn706AbJaKW
//openreview.net/pdf?id=Cn706AbJaKW
食物、能源、水的短缺是人类面对的终极挑战。人工智能技术是我们面对这些挑战强有力的武器。最前沿的发展如何?我们如何突破困境?腾讯首席探索官网大为最新力作《重构地球:AI FOR FEW》,马化腾力荐!
AI科技评论为大家带来5本《重构地球:AI FOR FEW》正版新书。
在1月13日末条文章(注意不是本文!)《赠书福利!腾讯x先生论AI如何解决全球吃饭难题,马化腾力荐》留言区畅所欲言,谈一谈你对本书的看法。
AI 科技评论将会在留言区选出 5 名读者,每人送出《重构地球:AI FOR FEW》一本。

点击阅读原文,直达IJCAI小组!
由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号,以及常点文末右下角的“在看”。