EMNLP 2020即将召开,中国学者最高产:单人9篇主会论文!

  • 2020 年 11 月 27 日
  • AI
作者 | 陈大鑫

今晚开始,EMNLP 2020就将于线上召开啦!(11月16日-11月20日)

EMNLP 是由国际语言学会(ACL)下属的 SIGDAT 小组主办的自然语言处理领域的顶级国际会议,在计算语言学类别下影响力排名全球第二。EMNLP 每年举办一次,去年则与 IJCNLP 联合,在香港举办,今年由于疫情转为线上举办。
今年9月份,EMNLP 2020 录取结果出炉:接受论文754篇,接收为Findings论文520篇,被拒论文1840篇,总体接收率为24%。
近日,EMNLP 2020 录取论文完整列表已在官方放出,据AI科技评论不完全统计,达摩院自然语言智能实验室邴立东博士,在本年度EMNLP大会上有9篇论文入选正会,成为中国工业界入选论文最多的作者。

与此同时,在全球范围内,邴立东博士同清华大学刘知远、Salesforce AI的 Xiong Caiming 并列为本次大会最高产作者,同时,哈工大刘挺教授此次也有7篇主会论文入选

以下AI科技评论对这四位作者本次EMNLP 2020 论文录取情况做简单介绍。

1

达摩院邴立东

邴立东博士目前在达摩院自然语言智能实验室,他于香港中文大学获得博士学位,曾是卡耐基梅隆大学机器学习博士后研究员。他的研究兴趣包括低资源自然语言处理、情感分析、文本生成/摘要、信息提取、知识库等。

个人主页://lidongbing.github.io/

邴立东博士团队主导的8篇投稿论文,实现了100%录取率(大会主会平均录取率为22.4%)。

入选的论文集中于四个领域,包括论辩挖掘及情感分析(Argument & Sentiment)、低资源命名体识别(Low-resource NER)、表示学习及应用(Representation Learning & Application)、文本生成(Text Generation),在任务、数据、方法和模型上有显著的贡献。

比如,新任务包括:论辩对挖掘、知识库增强的实体描述生成,两个任务均提供了新数据集。

新方法/模型包括:基于生成的数据增强、无监督句子表示学习、动态轻量图神经网络、跨语言跨领域的预训练特征迁移、端到端的细粒度情感三元组抽取。

论辩对挖掘任务:邴博士团队首次提出了从构成辩论关系的两篇文档中,抽取论辩对的任务。现有论辩挖掘的任务是基于单一文本进行抽取,如法律文件、论文等。辩论对挖掘任务第一次探索从两篇文档中,挖掘互相构成论辩关系的文本片段。举例来讲,司法诉讼中的起诉状和答辩状构成一个文档对,论辩对挖掘技术可以从起诉状中抽取原告观点,从答辩状中识别被告的答辩。作者公开了一个大规模的数据集,包括5000+个文档对,和全部文档对内的论辩对标注。

基于生成的数据增强:提出了一种全新的 NLP 数据增强技术,可以应用于各种序列标注任务。相比于计算机视觉和语音,在自然语言处理的序列标注任务上,当前并没有有效的数据增强技术,以往提出的同义词替换等方法过于简单且效果不佳。而其他的数据增强方法如反向翻译等仅适用于翻译或者分类任务,并不适用于序列标注任务。

邴博士团队提出的基于语言模型的数据增强方法,先对原有的序列标注数据进行线性化,把文本数据和序列标注转化为语言模型的训练数据,再通过训练好的语言模型,生成更多的可用于序列标注训练的数据,以此达到数据增强的目的。

以下是邴立东博士团队所有主会录取论文:

1、《ENT-DESC: Entity Description Generation by Exploring Knowledge Graph》Liying Cheng, Dekun Wu, Lidong Bing, Yan Zhang, Zhanming Jie, Wei Lu and Luo Si.

2、《APE: Argument Pair Extraction from Peer Review and Rebuttal via Multi-task Learning》Liying Cheng, Lidong Bing, Qian Yu, Wei Lu and Luo Si.

3、《DAGA: Data Augmentation with a Generation Approach forLow-resource Tagging Tasks》 BOSHENG DING, Linlin Liu, Lidong Bing, Canasai Kruengkrai, Thien Hai Nguyen, Shafiq Joty, Luo Si and Chunyan Miao.

4、《Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text Generation》Yan Zhang, Zhijiang Guo, Zhiyang Teng, Wei Lu, Shay B. Cohen, ZUOZHU LIU and Lidong Bing.

5、《Feature Adaptation of Pre-Trained Language Models across Languages and Domains with Robust Self-Training》Hai Ye, Qingyu Tan, Ruidan He, Juntao Li, Hwee Tou Ng and Lidong Bing.

6、《Partially-Aligned Data-to-Text Generation with Distant Supervision》Zihao Fu, Bei Shi, Wai Lam, Lidong Bing and Zhiyuan Liu.

7、《Position-Aware Tagging for Aspect Sentiment Triplet Extraction》Lu Xu, Hao Li, Wei Lu and Lidong Bing.

8、《An Unsupervised Sentence Embedding Method by Mutual Information Maximization》Yan Zhang, Ruidan He, ZUOZHU LIU, Kwan Hui Lim and Lidong Bing.

9、《Aspect Sentiment Classification with Aspect-Specific Opinion Spans    Lu Xu, Lidong Bing, Wei Lu and Fei Huang》 Lu Xu, Lidong Bing, Wei Lu and Fei Huang.

2

清华大学刘知远

刘知远是清华大学计算机科学与技术系长聘副教授。他分别于2006年和2011年从清华大学计算机科学与技术系获得工学学士学位和博士学位。他的研究兴趣包括自然语言处理与社会计算。他已经在国际期刊与会议上发表了超过90篇论文,包括ACM Transactions、IJCAI、AAAI、ACL和EMNLP等 。

个人主页://nlp.csai.tsinghua.edu.cn/~lzy/

以下介绍其中一篇题为《Dynamic Anticipation and Completion for Multi-Hop Reasoning over Sparse Knowledge Graph》 的论文。

近年来,为了寻求一种有效的、可解释的知识图谱补全方法,多跳推理得到了广泛的研究。以往的推理方法大多是针对实体间有足够路径的稠密知识图谱而设计的,但对于那些只包含稀疏路径的稀疏知识图谱,却不能很好地进行推理。
一方面,稀疏知识图谱包含的信息较少,使得模型难以选择正确的路径。
另一方面,缺乏指向目标实体的有效路径也使推理过程变得困难。
为了解决这些问题,本文提出了一种基于稀疏知识图谱的多跳推理模型DacKGR,并应用了新的动态预测和补全策略:

 

(1)预测策略利用基于嵌入模型的潜在预测,使模型在稀疏知识图谱上进行更合理的路径搜索。
(2)在路径搜索过程中,补全策略根据当前状态添加边作为附加动作,进一步缓解了知识图谱的稀疏性问题。对Freebase、NELL和Wikidata中五个数据集的实验结果表明,本文的方法优于SOTA baseline。
开源代码://github.com/THU-KEG/DacKGR.
以下是刘知远团队EMNLP 2020录取论文:

1、《Coreferential Reasoning Learning for Language Representation》Deming Ye, Yankai Lin, Jiaju Du, Zhenghao Liu, Peng Li, Maosong Sun and Zhiyuan Liu.

2、《Dynamic Anticipation and Completion for Multi-Hop Reasoning over Sparse Knowledge Graph》 

Xin Lv, Xu Han, Lei Hou, Juanzi Li, Zhiyuan Liu, Wei Zhang, YICHI ZHANG, Hao Kong and Suhui Wu.

3、《Learning from Context or Names? An Empirical Study on Neural Relation Extraction》Hao Peng, Tianyu Gao, Xu Han, Yankai Lin, Peng Li, Zhiyuan Liu, Maosong Sun and Jie Zhou.

4、《Exploring and Evaluating Attributes, Values, and Structures for Entity Alignment》Zhiyuan Liu, Yixin Cao, Liangming Pan, Juanzi Li, Zhiyuan Liu and Tat-Seng Chua.

5、《MAVEN: A Massive General Domain Event Detection Dataset》Xiaozhi Wang, Ziqi Wang, Xu Han, Wangyi Jiang, Rong Han, Zhiyuan Liu, Juanzi Li, Peng Li, Yankai Lin and Jie Zhou.

6、《Partially-Aligned Data-to-Text Generation with Distant Supervision》

 Zihao Fu, Bei Shi, Wai Lam, Lidong Bing and Zhiyuan Liu. 

7、《Train No Evil: Selective Masking for Task-Guided Pre-Training》Yuxian Gu, Zhengyan Zhang, Xiaozhi Wang, Zhiyuan Liu and Maosong Sun.

8、《Denoising Relation Extraction from Document-level Distant Supervision》Chaojun Xiao, Yuan Yao, Ruobing Xie, Xu Han, Zhiyuan Liu, Maosong Sun, Fen Lin and Leyu Lin.

9、《Adapting Open Domain Fact Extraction and Verification to COVID-FACT through In-Domain Language Modeling》. Zhenghao Liu, Chenyan Xiong, Zhuyun Dai, Si Sun, Maosong Sun and Zhiyuan Liu.

3

Xiong Caiming


目前,Xiong Caiming是Salesforce AI的高级研究总监。2014年6月至2015年9月,他于加州大学洛杉矶分校(UCLA)担任博士后研究员。2014年他在纽约州立大学布法罗分校计算机科学与工程系获得博士学位(由Jason J. Corso教授指导)。他分别于2005年和2007年在华中科技大学获得计算机科学学士学位和硕士学位。
个人主页://cmxiong.com/
以下是Xiong Caiming团队EMNLP 2020录取论文:

1、《VD-BERT: A Unified Vision and Dialog Transformer with BERT》 作者:Yue Wang, Shafiq Joty, Michael Lyu, Irwin King, Caiming Xiong and Steven C.H. Hoi.

2、《TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue》. 作者:Chien-Sheng Wu, Steven C.H. Hoi, Richard Socher and Caiming Xiong.

3、《Discern: Discourse-Aware Entailment Reasoning Network for Conversational Machine Reading》. 作者:Yifan Gao, Chien-Sheng Wu, Jingjing Li, Shafiq Joty, Steven C.H. Hoi, Caiming Xiong, Irwin King and Michael Lyu.

4、《Probing Task-Oriented Dialogue Representation from Language Models》. 作者:Chien-Sheng Wu and Caiming Xiong.

5、《Universal Natural Language Processing with Limited Annotations: Try Few-shot Textual Entailment as a Start》. 作者:Wenpeng Yin, Nazneen Fatema Rajani, Dragomir Radev, Richard Socher and Caiming Xiong.

6、《Evaluating the Factual Consistency of Abstractive Text Summarization》. 作者:Wojciech Kryscinski, Bryan McCann, Caiming Xiong and Richard Socher.

7、《Discriminative Nearest Neighbor Few-Shot Intent Detection by Transferring Natural Language Inference》. 作者:Jianguo Zhang, Kazuma Hashimoto, Wenhao Liu, Chien-Sheng Wu, Yao Wan, Philip Yu, Richard Socher and Caiming Xiong.

8、《The Thieves on Sesame Street are Polyglots – Extracting Multilingual Models from Monolingual APIs》.作者:Nitish Shirish Keskar, Bryan McCann, Caiming Xiong and Richard Socher.

9、《Simple Data Augmentation with the Mask Token Improves Domain Adaptation for Dialog Act Tagging》.作者:Semih Yavuz, Kazuma Hashimoto, Wenhao Liu, Nitish Shirish Keskar, Richard Socher and Caiming Xiong.

4

哈工大刘挺

刘挺,哈尔滨工业大学教授,现任哈工大计算学部主任兼计算机学院院长,国家“万人计划”科技创新领军人才 。中国计算机学会理事,中国中文信息学会常务理事/社会媒体处理专委会(SMP)主任 ,曾任国际顶级会议ACL、EMNLP领域主席。

主要研究方向为人工智能、自然语言处理和社会计算。2012-2017年在自然语言处理领域顶级会议发表的论文数量列世界第8位(据剑桥大学统计)。

以下是刘挺团队本次EMNLP 2020主会录取论文:

1、《Discourse Self-Attention for Discourse Element Identification in Argumentative Student Essays》. Wei Song, Ziyao Song, Ruiji Fu, Lizhen Liu, Miaomiao Cheng and Ting Liu.

2、《Profile Consistency Identification for Open-domain Dialogue Agents》. Haoyu Song, Yan Wang, Wei-Nan Zhang, Zhengyu Zhao, Ting Liu and Xiaojiang Liu.

3、《Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting》. Sanyuan Chen, Yutai Hou, Yiming Cui, Wanxiang Che, Ting Liu and Xiangzhan Yu.

4、《Counterfactual Off-Policy Training for Neural Dialogue Generation》. Qingfu Zhu, Wei-Nan Zhang, Ting Liu and William Yang Wang.

5、《Combining Self-Training and Self-Supervised Learning for Unsupervised Disfluency Detection》. Shaolei Wang, Zhongyuan Wang, Wanxiang Che and Ting Liu.

6、《Multi-Stage Pre-training for Automated Chinese Essay Scoring》. Wei Song, Kai Zhang, Ruiji Fu, Lizhen Liu, Ting Liu and Miaomiao Cheng.

7、《Is Graph Structure Necessary for Multi-hop Question Answering?》. Nan Shao, Yiming Cui, Ting Liu, Shijin Wang and Guoping Hu.

5

大会展望

首先回顾一下EMNLP-IJCLPN 2019年录取情况:

从投稿国家看EMNLP 2019中国提交了近1000篇论文,美国也有近900篇论文提交。最终,美国成为本届大会被接收论文最多的国家,大概有260篇。中国位居第二,约有200篇论文被录用。
这也意味着中国学者无需在论文数量上犯愁,其实进入2020年后,国内最优秀的人工智能研究团队,都在暗暗地调整自己的目标——顶会论文数量已不是最终目标,逐鹿 Best Paper 成为关键。
在SIGDIAL 2020上,清华黄民烈教授所带领的COAI小组拿到了最佳论文奖。
在ICML 2020上,北理工的魏恺轩等人获得了杰出论文奖。
在SIGKDD 2020 上,清华大学唐杰团队发表于2008年的论文被评为时间检验奖。
在ECML-PKDD上,中科院计算所的程学旗团队拿下了“数据挖掘最佳学生论文奖”。

在ACM MM 2020上,南开大学获得最佳论文奖,西安交大获最佳学生论文奖。

这里,AI科技评论祝中国学者在EMNLP 2020上也获得好的成绩~



点击阅读原文,直达EMNLP小组!