NLP 領域還有 5 大開放問題

  • 2019 年 10 月 6 日
  • 筆記

作者 | 楊曉凡 編輯 | 唐里

如題,雖然 NLP 研究領域已經在深度學習的幫助下取得了長足的發展,許多技術也已經商業化落地,但我們也需要知道,這個領域還有幾個開放性問題等待解決 —— 如果它們也能比較好地解決,也許我們能迎來 NLP 科研成果與商業落地的一個新的高潮。

下面列舉的 5 個開放性問題來自自學 NLP 的機電一體化本科生 Deepak Garasangi 在 Reddit 上的發帖討論內容總結,並且參考了 Sebastian Ruder 曾經總結的 4 個開放性問題。按重要性從輕到重排序:

5. 評價指標

這個問題在領域內不算很大的瓶頸,但是經常有研究人員覺得有必要重新討論這個問題,因為現行慣例里往往不問原因就沿用某些固定的架構、數據集和評價指標。有人這樣總結:「隨著我們探索越來越高級的認知任務,弄明白為什麼某些方法、某些架構在某些時候能起到好的效果,這對我們非常有幫助。」

另外一種擔憂是對於評價指標自身的,這些評價技巧、這些生成的數字到底能在多大程度上對應人類語言的多樣性和表達能力?對這個問題的回答也可以幫助我們構建出更有趣的自然語言推理數據集。

拓展閱讀:EMNLP 2017 論文《Why We Need New Evaluation Metrics for NLG》(https://www.aclweb.org/anthology/D17-1238)

4. 終生學習(Life long learning)

NLP 領域遇到的另一個棘手問題是為這幾個問題設計解決方案:

  • 低階模型用於下游任務時的終生適配
  • 遷移學習的應用
  • 視覺、文本、音頻等等語言相關模態的無縫整合
  • 低資源情境中高效的跨任務遷移

拓展閱讀:Sebastian Ruder 近期寫了一篇文章,總結了 NLP 領域遷移學習的現狀,AI 科技評論也做了編輯,可以點擊閱讀

3. 面向目標的對話系統

面向目標的對話系統(Goal oriented dialogue systems)

從 ACL 學會出版的論文集來看,近一兩年的 ACL 會議、EMNLP 會議中研究面向目標的對話系統的論文都有大幅增加。這就是又一個開放性問題:如何設計具備常識、能在真實世界語境中與人類進行較長的、面向目標的交談的機器對話系統。目前的研究思路包括:帶有狀態追蹤的任務驅動的對話系統,使用強化學習的對話系統,以及很多別的新點子。

拓展閱讀:在 NLP 中應用強化學習 https://www.csie.ntu.edu.tw/~yvchen/doc/KAIST19_Tutorial.pdf

2. 低資源語言

這可以算是最緊迫的問題。目前全世界大約有 7000 種語言,但這些語言中只有很小的一部分,大概 20 種左右,可以算是資源豐富的語言。這個問題除了很實際之外,在其中找到靈感、取得進展也相對比較容易。專家們認為可行的方向包括:

  • 為低資源語言設計收集數據、用較小數據訓練語言模型的方法
  • 可以有效用於低資源語言的跨任務遷移方法

拓展閱讀:詳細的說明文章參見 http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf

1. 自然語言理解

沒錯,這就是那個最開放的問題,它和 NLP 領域中的許多具體問題也都息息相關。想要解決這個高階的認知問題,可能需要我們從強化學習、領域適應、小樣本/零樣本學習等等領域中借鑒很多思想和方法,也還需要 NLP 研究人員們做出更多創新。

現階段的研究落腳點包括:

  • 共指消歧(Coreference resolution)、多義詞解析(Polysemy)、文本/文檔總結(Text/Document Summarization)
  • 論證與推理,諷刺與幽默
  • 高效地表徵大文本
  • 環境中的語言學習(Grounded language learning),比如聯合學習一個世界模型和語言模型,並且學習如何在語言模型中使用世界模型。

Yoshua Bengio 曾說:「要有野心。不要(因為做 NLP 就)僅僅讀 NLP 論文。要讀很多機器學習、深度學習、強化學習的論文。」我們也希望各位研究者們可以打開眼界,多多參考以前和現在的包括別的領域的有用經驗,才能解決更難的問題、做出更大的成果。