EMNLP 2020即將召開,中國學者最高產:單人9篇主會論文!
- 2020 年 11 月 27 日
- AI

今晚開始,EMNLP 2020就將於線上召開啦!(11月16日-11月20日)
與此同時,在全球範圍內,邴立東博士同清華大學劉知遠、Salesforce AI的 Xiong Caiming 並列為本次大會最高產作者,同時,哈工大劉挺教授此次也有7篇主會論文入選。
以下AI科技評論對這四位作者本次EMNLP 2020 論文錄取情況做簡單介紹。
達摩院邴立東
邴立東博士目前在達摩院自然語言智慧實驗室,他於香港中文大學獲得博士學位,曾是卡耐基梅隆大學機器學習博士後研究員。他的研究興趣包括低資源自然語言處理、情感分析、文本生成/摘要、資訊提取、知識庫等。
個人主頁://lidongbing.github.io/
邴立東博士團隊主導的8篇投稿論文,實現了100%錄取率(大會主會平均錄取率為22.4%)。
入選的論文集中於四個領域,包括論辯挖掘及情感分析(Argument & Sentiment)、低資源命名體識別(Low-resource NER)、表示學習及應用(Representation Learning & Application)、文本生成(Text Generation),在任務、數據、方法和模型上有顯著的貢獻。
比如,新任務包括:論辯對挖掘、知識庫增強的實體描述生成,兩個任務均提供了新數據集。
新方法/模型包括:基於生成的數據增強、無監督句子表示學習、動態輕量圖神經網路、跨語言跨領域的預訓練特徵遷移、端到端的細粒度情感三元組抽取。
論辯對挖掘任務:邴博士團隊首次提出了從構成辯論關係的兩篇文檔中,抽取論辯對的任務。現有論辯挖掘的任務是基於單一文本進行抽取,如法律文件、論文等。辯論對挖掘任務第一次探索從兩篇文檔中,挖掘互相構成論辯關係的文本片段。舉例來講,司法訴訟中的起訴狀和答辯狀構成一個文檔對,論辯對挖掘技術可以從起訴狀中抽取原告觀點,從答辯狀中識別被告的答辯。作者公開了一個大規模的數據集,包括5000+個文檔對,和全部文檔對內的論辯對標註。
基於生成的數據增強:提出了一種全新的 NLP 數據增強技術,可以應用於各種序列標註任務。相比於電腦視覺和語音,在自然語言處理的序列標註任務上,當前並沒有有效的數據增強技術,以往提出的同義詞替換等方法過於簡單且效果不佳。而其他的數據增強方法如反向翻譯等僅適用於翻譯或者分類任務,並不適用於序列標註任務。
邴博士團隊提出的基於語言模型的數據增強方法,先對原有的序列標註數據進行線性化,把文本數據和序列標註轉化為語言模型的訓練數據,再通過訓練好的語言模型,生成更多的可用於序列標註訓練的數據,以此達到數據增強的目的。
以下是邴立東博士團隊所有主會錄取論文:
清華大學劉知遠

劉知遠是清華大學電腦科學與技術系長聘副教授。他分別於2006年和2011年從清華大學電腦科學與技術系獲得工學學士學位和博士學位。他的研究興趣包括自然語言處理與社會計算。他已經在國際期刊與會議上發表了超過90篇論文,包括ACM Transactions、IJCAI、AAAI、ACL和EMNLP等 。
個人主頁://nlp.csai.tsinghua.edu.cn/~lzy/
以下介紹其中一篇題為《Dynamic Anticipation and Completion for Multi-Hop Reasoning over Sparse Knowledge Graph》 的論文。
Xiong Caiming

哈工大劉挺
劉挺,哈爾濱工業大學教授,現任哈工大計算學部主任兼電腦學院院長,國家「萬人計劃」科技創新領軍人才 。中國電腦學會理事,中國中文資訊學會常務理事/社會媒體處理專委會(SMP)主任 ,曾任國際頂級會議ACL、EMNLP領域主席。
主要研究方向為人工智慧、自然語言處理和社會計算。2012-2017年在自然語言處理領域頂級會議發表的論文數量列世界第8位(據劍橋大學統計)。
大會展望
首先回顧一下EMNLP-IJCLPN 2019年錄取情況:

在ACM MM 2020上,南開大學獲得最佳論文獎,西安交大獲最佳學生論文獎。

點擊閱讀原文,直達EMNLP小組!