NLP 的四大技術圖譜,帶你系統設計學習路徑

  • 2019 年 10 月 30 日
  • 筆記

項目作者:Tae-Hwan Jung

編輯:機器之心

自然語言處理很多時候都是一門綜合性的學問,它遠遠不止機器學習算法。相比圖像或語音,文本的變化更加複雜,例如從預處理來看,NLP 就要求我們根據對數據的理解定製一種流程。而且相比圖像等更偏向感知的智能,自然語言包含更高一級的智能能力,不論是承載思想、情感還是推理。

那麼我們該怎樣學習自然語言處理,有什麼比較好的路線嗎?通常而言,在數學和機器學習的基礎上,我們還需要了解自然語言的規則與現象,這樣才能進一步探討該怎樣處理自然語言。

本文介紹剛剛發佈的一個開源項目,韓國慶熙大學本科生 Tae-Hwan Jung 總結了一套 NLP 的技術路線圖。值得注意的是,Tae-Hwan Jung 此前已經開源了很多優秀的項目,包括 4.3k+ star 量的 NLP 教程。

  • 項目地址:https://github.com/graykode/nlp-roadmap

Tae-Hwan Jung 表示,本項目面向對 NLP 感興趣的學生,該路線圖提供了學習 NLP 的思維導圖及關鍵詞信息,它覆蓋了從概率/統計到 SOTA NLP 模型的素材。

如上所示為 NLP 的技術基石,最基礎的當然還是數學和算法方面的知識,此外語言學和機器學習知識也必不可少。再往上主要是文本挖掘與 NLP,在作者看來,前者更偏向於常規的算法與淺層機器學習模型,後者更偏向於深度學習模型。

四大技術線路圖

如下從概率和統計到深度學習方法展示了四大技術路線圖,它們從基石到高層展示了完整的知識領域。

概率與統計

機器學習

文本挖掘

自然語言處理

注意:

  • 關鍵詞之間的關係可能解釋得比較模糊,因為是以語義思維導圖的方式表示的。 讀者們只需要看方框內的關鍵詞就行,把它們當作必學部分;
  • 在一張圖中容納如此多的關鍵詞和知識點,非常的難,因此,請切記該路線圖只是一種思路或者建議;