2018自然语言处理与机器学习论文发表统计

  • 2019 年 11 月 20 日
  • 笔记

来源:http://www.marekrei.com/blog/ml-and-nlp-publications-in-2018/

翻译:哈工大SCIR 尹庆宇

自然语言处理领域在2018年有着突飞猛进的进步,在论文发表和投递数量都屡创新高,打破历史记录。NeurIPS会议的门票甚至在11分38秒内就售罄。本文对2018年相关会议和期刊的论文发表做出统计,按照作者和机构介绍论文发表情况。

今年的统计包括了如下会议和期刊:ACL, EMNLP, NAACL, EACL, COLING, TACL, CL, CoNLL, NeurIPS(原NIPS), ICML, ICLR, AAAI。这些基本涵盖了目前世界上主流的自然语言处理和机器学习相关会议和期刊。与往年相比,我们去掉了SemEval,因为这个会议更多关注的是评测论文,而在其他会议中也去掉了这类论文。另外,在几年我们也增加了AAAI的统计。本统计用脚本从论文列表中自动统计信息,用多种手段将作者和机构对齐,尽量避免错误。

尽管本统计显示了在过去一年内发表论文数目最多的作者和机构,但是我们觉得论文的质量是我们领域最应该被重视和追求的。下边的图表显示,本领域发展的越来越快,并变得越来越流行。发表一篇高质量,能够被人记住的论文往往比发表10篇很快被遗忘的论文重要。本文只是从高层视角统计了作者在会议中发表论文的情况,可能给新的研究者在论文新想法上些许启发。

  • 会议规模统计

首先,我们对每个会议发表的论文数做出统计(2012-2018)。大多数会议发表的论文数目都有大幅提高,尤其是AAAI和NeurIPS发表的论文数目比上一年多了1000篇以上,EMNLP和NAACL都大幅超越自己的论文发表记录,而ACL和Coling则与历史数目相似。TACL和CL每年的论文发表数目基本不变。

  • 作者统计

接下来,我们按照作者统计了2018年发表论文数目。3个学者在2018年分别贡献了22篇论文,他们是:Ming Zhou(MSRA),Graham Neubig(CMU)和Sergey Levine(UCB)。后续排名的学者分别是Tong Zhang(Tencent AI),Maosong Sun(清华)和Iryna Gurevych(TU Darmstadt)。值得一提的是,哈工大社会计算与信息检索研究中心主任刘挺教授(Ting Liu)共发表论文17篇,排名第10名(华人学者中排名第4)。

我们还统计了从2012年到2018年作者发表的论文总数。来自DeepMind的Chris Dyer排名第一,接下来分别是Ming Zhou(MSRA), Yoshua Bengio(Montreal),Yue Zhang(西湖大学)和Noah A.Smith(Washington)。哈工大社会计算与信息检索研究中心主任刘挺(Ting Liu)教授排名第6(华人学者中排名第3)。

接下来做了各作者不同年份发表的论文数目变化统计。从统计中可以看到,Chris Dyer在两年内论文数目的差距是最大的,Yue Zhang和Ming Zhou也有类似的情况。

  • 第一作者统计

我们还对发表论文的第一作者做出了统计。统计表明,来自南洋理工大学的Yi Tay(博士三年级)共发表10篇论文,大幅领先第二名,排名榜首。

对于2012-2018时间段,Jiwei Li以22篇第一作者论文遥遥领先。

  • 机构统计

在2018年年发表的论文中,按照机构统计的结果如下图所示。与2017年相比,CMU还是占据了榜首的位置。在工业界,Google和Microsoft排名靠前。国内的学校中,清华大学、北京大学、上海交通大学等都榜上有名。

在2012-2018年的全时段排名中,CMU依旧排名榜首。Google和Microsoft排名第二和第三。Princeton, INRIA 和Duke看起来只发表机器学习相关的论文,并不涉及自然语言处理领域。Peking, CAS和Edinburgh在语言处理应用相关论文(NeurIPS/ICML)有着很强的影响力。值得注意的是,哈尔滨工业大学作为国内的四所大学之一上榜。

  • 主题聚类

我们利用主题聚类的方式对作者和机构进行聚类。聚类是通过将所有相关论文放入LDA实现的。聚类的图体现了不同作者或机构发表论文内容的相似程度。

最后,希望大家在2019年有更大收获。

本期责任编辑:张伟男

本期编辑:孙卓