機器推理系列文章概覽:七大NLP任務最新方法與進展
- 2019 年 10 月 4 日
- 筆記

作者 | 段楠,唐都鈺,周明
來源 | 微軟研究院AI頭條(ID: MSRAsia)
導讀:自然語言處理的發展進化帶來了新的熱潮與研究問題,研究者們在許多不同的任務中推動機器推理(Machine Reasoning)能力的提升。基於一系列領先的科研成果,微軟亞洲研究院自然語言計算組將陸續推出一組文章,介紹機器推理在常識問答、事實檢測、自然語言推理、視覺常識推理、視覺問答、文檔級問答、多輪語義分析和問答等任務上的最新方法和進展。
從規則方法、統計方法到目前的深度學習方法,自然語言處理(NLP)研究一直處於不斷發展和進化的狀態之中,並在過去五年取得了令人矚目的成果。對於一個擁有充分標註語料的 NLP 任務(例如機器翻譯和自動問答),現有的深度學習方法能夠很好地對輸入和輸出之間的關係進行建模,並在分布相同或類似的測試數據上取得令人滿意的效果。
然而,一旦測試數據所涉及的知識和領域超出訓練數據的範疇之外,大多數模型的效果都會一落千丈。這一現象其實不難理解:人類在從小到大的成長過程中,已經通過各式各樣的學習過程掌握了大量的通用知識(例如數學知識、物理知識、世界知識、常識知識等)。這些知識能夠幫助人類在學習新技能或遇到新問題時進行推理並舉一反三。然而,絕大多數 NLP 模型都不具備這樣的知識模型,因此就不能很好地理解和解決新的問題。
大規模知識圖譜(例如 Satori 和 WikiData )的出現使得構建基於知識的 NLP 模型成為可能,語義分析(Semantic Parsing)和知識圖譜問答(Knowledge-based QA)研究也藉此成為最熱門的兩個 NLP 課題。然而,由於現有知識圖譜對人類知識的覆蓋度依然非常有限,基於知識圖譜的 NLP 模型只能精準理解和處理很少一部分自然語言問題和任務,而對剩餘部分無能為力。
最近兩年,預訓練模型(例如GPT、BERT和XLNet)的出現極大地提高了幾乎所有自然語言處理任務的最優水平。通過在海量文本上進行基於語言模型的預訓練以及在下游任務上對模型參數進行微調,預訓練模型能夠很好地將從訓練數據中學習到的「通用知識」遷移和傳遞到下游任務中。關於這種「通用領域預訓練+特定任務微調」的新範式,整個 NLP 社區也展開了熱烈的討論:預訓練模型是否真的學到了 「知識」?它是否能夠替代已有的符號化知識圖譜?它是否具備推理能力?
帶著對上述若干問題的好奇,微軟亞洲研究院自然語言計算組的研究員開展了一系列關於機器推理的研究。作為引言,本文將對什麼是機器推理給出解釋,並簡要說明已有 NLP 方法與機器推理的關係。接下來,我們會陸續推出一系列文章,介紹機器推理在常識問答、事實檢測、自然語言推理、視覺常識推理、視覺問答、文檔級問答、多輪語義分析和問答等任務上的最新方法和進展。
機器推理(Machine Reasoning),是指基於已有知識對未見問題進行理解和推斷,並得出問題對應答案的過程[1]。根據該定義,機器推理涉及4個主要問題:(1)如何對輸入進行理解和表示?(2)如何定義知識?(3)如何抽取和表示與輸入相關的知識?(4)基於對輸入及其相關知識的理解,如何推斷出輸入對應的輸出?下圖給出機器推理的整體框架。

圖1:機器推理整體框架
對於輸入的理解和表示,NLP 領域已經積累了大量的研究,包括詞袋(Bag-of-Word)模型、句法分析(Syntactic Parsing)模型、詞嵌入(Word Embedding)模型和句子嵌入(Sentence Embedding)模型等。對於知識的定義,不僅開放/特定領域的知識圖譜和常識圖譜屬於「知識」的範疇,目前被廣泛研究和使用的預訓練模型同樣可以看做是知識。這是因為預訓練模型的本質就是將每個單詞在海量文本中的上下文存儲在模型當中。
Facebook 的工作[2]也從實驗角度證明了現有預訓練模型對知識圖譜和常識知識的覆蓋。對於知識的提取和表示,基於知識圖譜的模型通常基於實體鏈接的結果從知識圖譜中找到與輸入相關的知識,並採用知識嵌入(Knowledge Embedding)的方式對其進行編碼和建模。相比之下,基於預訓練模型的知識提取則對應了使用預訓練模型對輸入文本進行編碼的過程。對於基於輸入及其相關知識進行推斷,不同的任務通常採用不同的推斷演算法。例如,在語義分析任務中,推斷過程對應了生成語義表示的演算法。在基於預訓練模型的微調方法中,推斷過程對應了已有預訓練模型之上的任務相關層。
上述描述只是對機器推理的一個粗淺解釋。在接下來的一系列文章中,我們將分別介紹上述機器推理框架在若干最新推理任務上的具體實現方法和實驗效果,包括:
機器推理系列之一:基於推理的常識問答

圖2:我們提出的推理方法(XLNet+Graph Reasoning)在以色列特拉維夫大學常識問答任務 CommonsenseQA上取得了目前 state-of-the-art 的結果[3]。
(https://www.tau-nlp.org/csqa-leaderboard)
機器推理系列之二:基於推理的事實檢測

圖3:我們提出的推理方法(DREAM)在 Amazon 劍橋研究院事實檢測任務FEVER上取得了目前 state-of-the-art 的結果[4]。
(https://competitions.codalab.org/competitions/18814#results)
機器推理系列之三:基於推理的跨語言自然語言推理

圖4:我們提出的跨語言預訓練模型(Unicoder)在紐約大學跨語言自然語言推理任務XNLI上取得了目前 state-of-the-art 的結果[5]。
(https://arxiv.org/pdf/1909.00964.pdf)
機器推理系列之四:基於推理的視覺常識推理

圖5:我們提出的跨模態預訓練模型(Unicoder-VL)在華盛頓大學視覺常識推理任務 VCR 上取得了目前 state-of-the-art 的結果[6]。
(https://visualcommonsense.com/leaderboard/)
機器推理系列之五:基於推理的視覺問答

圖6:我們提出的推理方法(DREAM+Unicoder-VL)在斯坦福大學視覺推理和問答任務 GQA 上取得了目前 state-of-the-art 的結果[7]。
(https://evalai.cloudcv.org/web/challenges/challenge-page/225/leaderboard/733)
機器推理系列之六:基於推理的文檔級問答

圖7:我們提出的基於BERT的文檔建模方法(BERT-DM)在Google文檔級問答任務 NQ 上取得了目前 state-of-the-art 的結果[8]。
(https://ai.google.com/research/NaturalQuestions)
機器推理系列之七:基於推理的多輪語義分析和問答

圖8:我們提出的多輪語義分析和問答方法(Seq2Action)在IBM研究院多輪複雜問答任務 CSQA 上取得了目前 state-of-the-art 的結果[9][10]。
參考文獻:
[1] Ming Zhou, Nan Duan, Shujie Liu, Heung-Yeung Shum. Progress in Neural NLP: Modeling, Learning and Reasoning. To appear in Engineering, 2019.
[2] Fabio Petroni, Tim Rocktaschel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, Alexander H. Miller, Sebastian Riedel. Language Models as Knowledge Bases?. EMNLP, 2019.
[3] Shangwen Lv, Daya Guo, Jingjing Xu, Duyu Tang, Nan Duan, Ming Gong, Linjun Shou, Daxin Jiang, Guihong Cao, Songlin Hu. Graph-based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering. To appear in arXiv, 2019.
[4] Wanjun Zhong, Jingjing Xu, Duyu Tang, Zenan Xu, Nan Duan, Ming Zhou, Jiahai Wang, Jian Yin. Reasoning Over Semantic-Level Graph for Fact Checking. To appear in arXiv, 2019.
[5] Haoyang Huang, Yaobo Liang, Nan Duan, Ming Gong, Linjun Shou, Daxin Jiang, Ming Zhou. Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks. EMNLP, 2019.
[6] Gen Li, Nan Duan, Yuejian Fang, Ming Gong, Daxin Jiang, Ming Zhou. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training. arXiv, 2019.
[7] Chenfei Wu, Nan Duan, Gen Li, Yanzhao Zhou, Duyu Tang, Xiaojie Wang, Daxin Jiang, Ming Zhou. DREAM: Dynamic REAsoning Machine for Visual Question Answering. To appear in arXiv, 2019.
[8] Bo Zheng, Haoyang Wen, Yaobo Liang, Nan Duan, Wanxiang Che, Daxin Jiang, Ting Liu, Ming Zhou. Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension. To appear in arXiv, 2019.
[9] Daya Guo, Duyu Tang, Nan Duan, Jian Yin, Ming Zhou. Dialog-to-Action: Conversational Question Answering over a Large-Scale Knowledge Base. NeurIPS, 2018.
[10] Daya Guo, Duyu Tang, Nan Duan, Ming Zhou, Jian Yin. Coupling Retrieval and Meta-Learning for Context-Dependent Semantic Parsing. ACL, 2019.