EMNLP 2020即將召開,中國學者最高產:單人9篇主會論文!

  • 2020 年 11 月 27 日
  • AI
作者 | 陳大鑫

今晚開始,EMNLP 2020就將於線上召開啦!(11月16日-11月20日)

EMNLP 是由國際語言學會(ACL)下屬的 SIGDAT 小組主辦的自然語言處理領域的頂級國際會議,在計算語言學類別下影響力排名全球第二。EMNLP 每年舉辦一次,去年則與 IJCNLP 聯合,在香港舉辦,今年由於疫情轉為線上舉辦。
今年9月份,EMNLP 2020 錄取結果出爐:接受論文754篇,接收為Findings論文520篇,被拒論文1840篇,總體接收率為24%。
近日,EMNLP 2020 錄取論文完整列表已在官方放出,據AI科技評論不完全統計,達摩院自然語言智慧實驗室邴立東博士,在本年度EMNLP大會上有9篇論文入選正會,成為中國工業界入選論文最多的作者。

與此同時,在全球範圍內,邴立東博士同清華大學劉知遠、Salesforce AI的 Xiong Caiming 並列為本次大會最高產作者,同時,哈工大劉挺教授此次也有7篇主會論文入選

以下AI科技評論對這四位作者本次EMNLP 2020 論文錄取情況做簡單介紹。

1

達摩院邴立東

邴立東博士目前在達摩院自然語言智慧實驗室,他於香港中文大學獲得博士學位,曾是卡耐基梅隆大學機器學習博士後研究員。他的研究興趣包括低資源自然語言處理、情感分析、文本生成/摘要、資訊提取、知識庫等。

個人主頁://lidongbing.github.io/

邴立東博士團隊主導的8篇投稿論文,實現了100%錄取率(大會主會平均錄取率為22.4%)。

入選的論文集中於四個領域,包括論辯挖掘及情感分析(Argument & Sentiment)、低資源命名體識別(Low-resource NER)、表示學習及應用(Representation Learning & Application)、文本生成(Text Generation),在任務、數據、方法和模型上有顯著的貢獻。

比如,新任務包括:論辯對挖掘、知識庫增強的實體描述生成,兩個任務均提供了新數據集。

新方法/模型包括:基於生成的數據增強、無監督句子表示學習、動態輕量圖神經網路、跨語言跨領域的預訓練特徵遷移、端到端的細粒度情感三元組抽取。

論辯對挖掘任務:邴博士團隊首次提出了從構成辯論關係的兩篇文檔中,抽取論辯對的任務。現有論辯挖掘的任務是基於單一文本進行抽取,如法律文件、論文等。辯論對挖掘任務第一次探索從兩篇文檔中,挖掘互相構成論辯關係的文本片段。舉例來講,司法訴訟中的起訴狀和答辯狀構成一個文檔對,論辯對挖掘技術可以從起訴狀中抽取原告觀點,從答辯狀中識別被告的答辯。作者公開了一個大規模的數據集,包括5000+個文檔對,和全部文檔對內的論辯對標註。

基於生成的數據增強:提出了一種全新的 NLP 數據增強技術,可以應用於各種序列標註任務。相比於電腦視覺和語音,在自然語言處理的序列標註任務上,當前並沒有有效的數據增強技術,以往提出的同義詞替換等方法過於簡單且效果不佳。而其他的數據增強方法如反向翻譯等僅適用於翻譯或者分類任務,並不適用於序列標註任務。

邴博士團隊提出的基於語言模型的數據增強方法,先對原有的序列標註數據進行線性化,把文本數據和序列標註轉化為語言模型的訓練數據,再通過訓練好的語言模型,生成更多的可用於序列標註訓練的數據,以此達到數據增強的目的。

以下是邴立東博士團隊所有主會錄取論文:

1、《ENT-DESC: Entity Description Generation by Exploring Knowledge Graph》Liying Cheng, Dekun Wu, Lidong Bing, Yan Zhang, Zhanming Jie, Wei Lu and Luo Si.

2、《APE: Argument Pair Extraction from Peer Review and Rebuttal via Multi-task Learning》Liying Cheng, Lidong Bing, Qian Yu, Wei Lu and Luo Si.

3、《DAGA: Data Augmentation with a Generation Approach forLow-resource Tagging Tasks》 BOSHENG DING, Linlin Liu, Lidong Bing, Canasai Kruengkrai, Thien Hai Nguyen, Shafiq Joty, Luo Si and Chunyan Miao.

4、《Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text Generation》Yan Zhang, Zhijiang Guo, Zhiyang Teng, Wei Lu, Shay B. Cohen, ZUOZHU LIU and Lidong Bing.

5、《Feature Adaptation of Pre-Trained Language Models across Languages and Domains with Robust Self-Training》Hai Ye, Qingyu Tan, Ruidan He, Juntao Li, Hwee Tou Ng and Lidong Bing.

6、《Partially-Aligned Data-to-Text Generation with Distant Supervision》Zihao Fu, Bei Shi, Wai Lam, Lidong Bing and Zhiyuan Liu.

7、《Position-Aware Tagging for Aspect Sentiment Triplet Extraction》Lu Xu, Hao Li, Wei Lu and Lidong Bing.

8、《An Unsupervised Sentence Embedding Method by Mutual Information Maximization》Yan Zhang, Ruidan He, ZUOZHU LIU, Kwan Hui Lim and Lidong Bing.

9、《Aspect Sentiment Classification with Aspect-Specific Opinion Spans    Lu Xu, Lidong Bing, Wei Lu and Fei Huang》 Lu Xu, Lidong Bing, Wei Lu and Fei Huang.

2

清華大學劉知遠

劉知遠是清華大學電腦科學與技術系長聘副教授。他分別於2006年和2011年從清華大學電腦科學與技術系獲得工學學士學位和博士學位。他的研究興趣包括自然語言處理與社會計算。他已經在國際期刊與會議上發表了超過90篇論文,包括ACM Transactions、IJCAI、AAAI、ACL和EMNLP等 。

個人主頁://nlp.csai.tsinghua.edu.cn/~lzy/

以下介紹其中一篇題為《Dynamic Anticipation and Completion for Multi-Hop Reasoning over Sparse Knowledge Graph》 的論文。

近年來,為了尋求一種有效的、可解釋的知識圖譜補全方法,多跳推理得到了廣泛的研究。以往的推理方法大多是針對實體間有足夠路徑的稠密知識圖譜而設計的,但對於那些只包含稀疏路徑的稀疏知識圖譜,卻不能很好地進行推理。
一方面,稀疏知識圖譜包含的資訊較少,使得模型難以選擇正確的路徑。
另一方面,缺乏指向目標實體的有效路徑也使推理過程變得困難。
為了解決這些問題,本文提出了一種基於稀疏知識圖譜的多跳推理模型DacKGR,並應用了新的動態預測和補全策略:

 

(1)預測策略利用基於嵌入模型的潛在預測,使模型在稀疏知識圖譜上進行更合理的路徑搜索。
(2)在路徑搜索過程中,補全策略根據當前狀態添加邊作為附加動作,進一步緩解了知識圖譜的稀疏性問題。對Freebase、NELL和Wikidata中五個數據集的實驗結果表明,本文的方法優於SOTA baseline。
開源程式碼://github.com/THU-KEG/DacKGR.
以下是劉知遠團隊EMNLP 2020錄取論文:

1、《Coreferential Reasoning Learning for Language Representation》Deming Ye, Yankai Lin, Jiaju Du, Zhenghao Liu, Peng Li, Maosong Sun and Zhiyuan Liu.

2、《Dynamic Anticipation and Completion for Multi-Hop Reasoning over Sparse Knowledge Graph》 

Xin Lv, Xu Han, Lei Hou, Juanzi Li, Zhiyuan Liu, Wei Zhang, YICHI ZHANG, Hao Kong and Suhui Wu.

3、《Learning from Context or Names? An Empirical Study on Neural Relation Extraction》Hao Peng, Tianyu Gao, Xu Han, Yankai Lin, Peng Li, Zhiyuan Liu, Maosong Sun and Jie Zhou.

4、《Exploring and Evaluating Attributes, Values, and Structures for Entity Alignment》Zhiyuan Liu, Yixin Cao, Liangming Pan, Juanzi Li, Zhiyuan Liu and Tat-Seng Chua.

5、《MAVEN: A Massive General Domain Event Detection Dataset》Xiaozhi Wang, Ziqi Wang, Xu Han, Wangyi Jiang, Rong Han, Zhiyuan Liu, Juanzi Li, Peng Li, Yankai Lin and Jie Zhou.

6、《Partially-Aligned Data-to-Text Generation with Distant Supervision》

 Zihao Fu, Bei Shi, Wai Lam, Lidong Bing and Zhiyuan Liu. 

7、《Train No Evil: Selective Masking for Task-Guided Pre-Training》Yuxian Gu, Zhengyan Zhang, Xiaozhi Wang, Zhiyuan Liu and Maosong Sun.

8、《Denoising Relation Extraction from Document-level Distant Supervision》Chaojun Xiao, Yuan Yao, Ruobing Xie, Xu Han, Zhiyuan Liu, Maosong Sun, Fen Lin and Leyu Lin.

9、《Adapting Open Domain Fact Extraction and Verification to COVID-FACT through In-Domain Language Modeling》. Zhenghao Liu, Chenyan Xiong, Zhuyun Dai, Si Sun, Maosong Sun and Zhiyuan Liu.

3

Xiong Caiming


目前,Xiong Caiming是Salesforce AI的高級研究總監。2014年6月至2015年9月,他於加州大學洛杉磯分校(UCLA)擔任博士後研究員。2014年他在紐約州立大學布法羅分校電腦科學與工程系獲得博士學位(由Jason J. Corso教授指導)。他分別於2005年和2007年在華中科技大學獲得電腦科學學士學位和碩士學位。
個人主頁://cmxiong.com/
以下是Xiong Caiming團隊EMNLP 2020錄取論文:

1、《VD-BERT: A Unified Vision and Dialog Transformer with BERT》 作者:Yue Wang, Shafiq Joty, Michael Lyu, Irwin King, Caiming Xiong and Steven C.H. Hoi.

2、《TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue》. 作者:Chien-Sheng Wu, Steven C.H. Hoi, Richard Socher and Caiming Xiong.

3、《Discern: Discourse-Aware Entailment Reasoning Network for Conversational Machine Reading》. 作者:Yifan Gao, Chien-Sheng Wu, Jingjing Li, Shafiq Joty, Steven C.H. Hoi, Caiming Xiong, Irwin King and Michael Lyu.

4、《Probing Task-Oriented Dialogue Representation from Language Models》. 作者:Chien-Sheng Wu and Caiming Xiong.

5、《Universal Natural Language Processing with Limited Annotations: Try Few-shot Textual Entailment as a Start》. 作者:Wenpeng Yin, Nazneen Fatema Rajani, Dragomir Radev, Richard Socher and Caiming Xiong.

6、《Evaluating the Factual Consistency of Abstractive Text Summarization》. 作者:Wojciech Kryscinski, Bryan McCann, Caiming Xiong and Richard Socher.

7、《Discriminative Nearest Neighbor Few-Shot Intent Detection by Transferring Natural Language Inference》. 作者:Jianguo Zhang, Kazuma Hashimoto, Wenhao Liu, Chien-Sheng Wu, Yao Wan, Philip Yu, Richard Socher and Caiming Xiong.

8、《The Thieves on Sesame Street are Polyglots – Extracting Multilingual Models from Monolingual APIs》.作者:Nitish Shirish Keskar, Bryan McCann, Caiming Xiong and Richard Socher.

9、《Simple Data Augmentation with the Mask Token Improves Domain Adaptation for Dialog Act Tagging》.作者:Semih Yavuz, Kazuma Hashimoto, Wenhao Liu, Nitish Shirish Keskar, Richard Socher and Caiming Xiong.

4

哈工大劉挺

劉挺,哈爾濱工業大學教授,現任哈工大計算學部主任兼電腦學院院長,國家「萬人計劃」科技創新領軍人才 。中國電腦學會理事,中國中文資訊學會常務理事/社會媒體處理專委會(SMP)主任 ,曾任國際頂級會議ACL、EMNLP領域主席。

主要研究方向為人工智慧、自然語言處理和社會計算。2012-2017年在自然語言處理領域頂級會議發表的論文數量列世界第8位(據劍橋大學統計)。

以下是劉挺團隊本次EMNLP 2020主會錄取論文:

1、《Discourse Self-Attention for Discourse Element Identification in Argumentative Student Essays》. Wei Song, Ziyao Song, Ruiji Fu, Lizhen Liu, Miaomiao Cheng and Ting Liu.

2、《Profile Consistency Identification for Open-domain Dialogue Agents》. Haoyu Song, Yan Wang, Wei-Nan Zhang, Zhengyu Zhao, Ting Liu and Xiaojiang Liu.

3、《Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting》. Sanyuan Chen, Yutai Hou, Yiming Cui, Wanxiang Che, Ting Liu and Xiangzhan Yu.

4、《Counterfactual Off-Policy Training for Neural Dialogue Generation》. Qingfu Zhu, Wei-Nan Zhang, Ting Liu and William Yang Wang.

5、《Combining Self-Training and Self-Supervised Learning for Unsupervised Disfluency Detection》. Shaolei Wang, Zhongyuan Wang, Wanxiang Che and Ting Liu.

6、《Multi-Stage Pre-training for Automated Chinese Essay Scoring》. Wei Song, Kai Zhang, Ruiji Fu, Lizhen Liu, Ting Liu and Miaomiao Cheng.

7、《Is Graph Structure Necessary for Multi-hop Question Answering?》. Nan Shao, Yiming Cui, Ting Liu, Shijin Wang and Guoping Hu.

5

大會展望

首先回顧一下EMNLP-IJCLPN 2019年錄取情況:

從投稿國家看EMNLP 2019中國提交了近1000篇論文,美國也有近900篇論文提交。最終,美國成為本屆大會被接收論文最多的國家,大概有260篇。中國位居第二,約有200篇論文被錄用。
這也意味著中國學者無需在論文數量上犯愁,其實進入2020年後,中國最優秀的人工智慧研究團隊,都在暗暗地調整自己的目標——高峰會論文數量已不是最終目標,逐鹿 Best Paper 成為關鍵。
在SIGDIAL 2020上,清華黃民烈教授所帶領的COAI小組拿到了最佳論文獎。
在ICML 2020上,北理工的魏愷軒等人獲得了傑出論文獎。
在SIGKDD 2020 上,清華大學唐傑團隊發表於2008年的論文被評為時間檢驗獎。
在ECML-PKDD上,中科院計算所的程學旗團隊拿下了「數據挖掘最佳學生論文獎」。

在ACM MM 2020上,南開大學獲得最佳論文獎,西安交大獲最佳學生論文獎。

這裡,AI科技評論祝中國學者在EMNLP 2020上也獲得好的成績~



點擊閱讀原文,直達EMNLP小組!