乾貨!「自然語言處理(NLP)」你真的了解NLP嗎?
- 2020 年 3 月 12 日
- 筆記
引言
你真的了解NLP嗎?本文主要是對當前自然語言處理領域的主要研究內容進行了梳理,共包含五個部分:NLP概述、NLP相關技術分類、NLP研究人員分布、NLP的應用、NLP的發展趨勢。該篇文章能夠幫助剛剛入坑NLP的小夥伴儘快找到自己的定位,同時也能協助已經在坑中掙扎多年的小夥伴看清該領域的全貌。
資料整理不易,幫作者點個在看吧,謝謝~
正文開始
1
NLP概述
1、什麼是NLP ?
NLP是自然語言處理(Natural Language Processing)的英文縮寫,它是指用電腦對自然語言的形、音、義等資訊進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作和加工。通俗的來講就是:讓電腦理解我們的語言。
2、如何才能讓電腦理解自然語言?
自然語言的理解和分析是一個層次化的過程,為了更好體現語言的構成,一些語言學家便把這個過程分為語音分析、詞法分析、句法分析、語義分析和語用分析。舉個形象的例子就可以很好的理解這個過程:例如,電腦通過麥克風接受到外界的語音,那麼他首先要識別出是語音而不是外界的雜訊,接著將接收到的語音進行分割,分成一些詞語,對這些詞語進行分析,然後根據接受到的詞語分析句子的意思,在得到句子的意思後,需要讓電腦理解這句話到底是什麼意思,最後進一步分析,這個人為什麼會這麼說,是不是生氣了,這就是語用分析。
3、如何才能衡量電腦理解自然語言的程度呢?
普遍認為採用圖靈試驗可以判斷電腦是否理解了某種自然語言,具體的判別標準有以下幾條: 第一, 問答, 機器人能正確回答輸入文本中的有關問題; 第二, 文摘生成, 機器有能力生成輸入文本的摘要; 第三, 釋義, 機器能用不同的詞語和句型來複述其輸入的文本; 第四, 翻譯, 機器具有把一種語言翻譯成另一種語言的能力。
4、自然語言處理(NLP)的發展歷程?
NLP的發展主要經歷了三個階段。
第一階段:1950 年圖靈提出了著名的「圖靈測試」 ,這一般被認為是自然語言處理思想的開端,20 世紀 50 年代到 70 年代自然語言處理主要採用基於規則的方法,研究人員們認為自然語言處理的過程和人類學習認知一門語言的過程是類似的,所以大量的研究員基於這個觀點來進行研究,這時的自然語言處理停留在理性主義思潮階段,以基於規則的方法為代表。
第二階段:70 年代以後隨著互聯網的高速發展,豐富的語料庫成為現實以及硬體不斷更新完善,自然語言處理思潮由理性主義向經驗主義過渡,基於統計的方法逐漸代替了基於規則的方法。
第三階段:從 2008 年到現在,在影像識別和語音識別領域的成果激勵下, 人們也逐漸開始引入深度學習來做自然語言處理研究, 由最初的詞向量到 2013 年 word2vec, 將深度學習與自然語言處理的結合推向了高潮, 並在機器翻譯、問答系統、閱讀理解等領域取得了一定成功。
5、中國NLP的發展狀況?
20世紀90年代以後,中國NLP研究高速發展,呈現出商業化、創新化的特徵。
主要的研究內容為:基礎性研究(消除歧義、語法形式化等)、應用型研究(資訊檢索、文本分類、機器翻譯等)、語音和文本是兩類研究重點、但是智慧檢索類研究近年逐漸升溫。
研究周期:技術開發周期較短(1-3)年、語言資源庫搭建較為困難(10年左右)。
國家扶持力度:國家自然科學基金、社會科學基金、863項目、973項目等。
NLP在相關行業中的發展?
微軟亞洲研究院:
• 語音翻譯:2017年全面採用神經網路機器翻譯 • 機器翻譯:將知識圖譜納入神經網路機器翻譯規劃語言理解的過程中 • 人機對話:小冰小娜進展極大
Google:
• 機器翻譯:2017年宣布實現完全基於attention的transformer網路架構 • 知識圖譜:自動挖掘新知識的準確程度、文本中命名實體的識別等技術處於領先地位 • 語音識別:2012年將神經網路應用於這一領域
Facebook:
• 機器翻譯:2017年使用全新的卷積神經網路進行翻譯,以9倍於以往循環神經網路的速度實現了當時最高的準確率 • 文本處理:基於2016年發布的FastText, 開發了有效的方法和輕量級工具 • 語音識別:2018年初開發了wav2letter,這是一個簡單高效的端到端自動語音識別(ASR)系統
百度:
• 機器翻譯: 發布了世界上首個線上神經網路翻譯系統,並獲得2015年度國家科技進步獎
阿里巴巴:
• 電商平台中構建知識圖譜實現智慧導購 • 全網用戶興趣挖掘 • 客服場景中打造機器人客服
騰訊:
• 機器翻譯:2017年翻譯君上線「同聲傳譯」 新功能 • 基於文智API可以實現搜索、推薦、輿情、挖掘等功能 • AI Lab研究領域包括電腦視覺、語音識別、自然語言處理、機器學習等
京東:
• 京東AI開放平台: 由模型訂製化平台和在線服務模組構成,在線服務模組包括電腦視覺、語音交互、自然語言處理和機器學習等 • 合作機構:南京大學、斯坦福大學等院校
科大訊飛:
• 2017年, 曉譯翻譯機1.0plus將神經網路翻譯系統由在線系統轉化為離線系統 • 2015年在由美國國家標準技術研究院組織的機器翻譯大賽中取得全球第一的成績
2
NLP相關技術分類
1、 基礎技術
詞法分析:詞性標註和詞義標註。
句法分析:判斷句子的句法結構和成分,明確各成分的相互關係
語義分析:根據句子的句法結構和句子中每個實詞的詞義推導出來能夠反映 這個句子意義的某種形式化表示
語用分析:人對語言的具體運用,是對自然語言的深層理解。
篇章分析:對段落和整篇文章進行理解和分析
2、NLP應用技術
機器翻譯:通過特定的電腦程式將一種書寫形式或聲音形式的自然語言,翻譯成另一種書寫形式或聲音形式的自然語言。
資訊檢索:從相關文檔集合中查找用戶所需資訊的過程。
情感分析:通過計算技術對文本的主客觀性、觀點、情緒、極性的挖掘和分析,對文本的情感傾向做出分類判斷。
自動問答:利用電腦自動回答用戶所提出的問題以滿足用戶知識需求的任務。
自動文摘:運用電腦技術,依據用戶需求從源文本中提取最重要的資訊內容,進行精簡、提煉和總結,最後生成一個精簡版本。
社會計算:在互聯網的環境下,以現代資訊技術為手段,以社會科學理論為指導,幫助人們分析社會關係,挖掘社會知識,協助社會溝通,研究社會規律,破解社會難題。
資訊抽取:從文本中抽取出特定的事實資訊。這些被抽取出來的資訊通常以結構化的形式直接存入資料庫,可以供用戶查詢及進一步分析使用,為之後構建知識庫、智慧問答等提供數據支撐。
3、關於NLP應用技術的論文整理(最近更新~)
「自然語言處理(NLP)」自然語言生成(NLG)論文速遞(一)
「自然語言處理(NLP)」自然語言生成(NLG)論文速遞(二)
(含源碼)「自然語言處理(NLP)」Question Answering(QA)論文整理(一)
「自然語言處理(NLP)」神經機器翻譯(NMT)論文整理(一)
(部分含源碼)「自然語言處理(NLP)」Word Embedding/Representation論文整理(一)
… …
3
NLP研究人員分布
1、全球學者分布概況

從國家來看:美國自然語言處理(NLP)研究學者聚集最多;英國、德國、加拿大和義大利緊隨其後。
從地區看來:美國東部是自然語言處理(NLP)人才的集中地;西歐、美國西部等其它先進地區也吸引了大量研究者。
2、華人學者分布概況

• 自然語言處理領域中華人專家在中國最多,美國次之。 • 從地區來看,中國大陸是自然語言處理華人人才的最主要聚集地,尤其是北京、哈爾濱及東南沿海地區等具有自然語言處理學術基礎的地區。 • 美國東部和西部等其他地區排在其後。
3、關於NLP研究人員
作者整理了一份全球NLP專家的列表清單,大家有興趣可以查看一下。
收藏!!「自然語言處理(NLP)」全球學術界」巨佬「資訊大盤點(一)!
收藏!!「自然語言處理(NLP)」全球學術界」巨佬「資訊大盤點(二)!
收藏!!「自然語言處理(NLP)」全球學術界」巨佬「資訊大盤點(三)!
收藏!!「自然語言處理(NLP)」全球學術界」巨佬「資訊大盤點(四)!
收藏!!「自然語言處理(NLP)」學術界全球知名學者教授資訊大盤點(全)!
最後你還可以回復:NLP巨佬 獲取完整PDF版
4
NLP的應用
1、知識圖譜
• 語義搜索: 利用建立大規模知識庫對搜索關鍵詞和文檔內容進行 語義標註,改善搜索結果,如Google、百度等在搜索結果中嵌入知識圖譜。 • 知識問答: 基於知識庫的問答,通過對提問句子的語義分析,在將其解析為結構化的詢問,在已有的知識庫中獲取答案。
• 基於知識的大數據分析決策: 一般起到輔助決策作用。Netflix公司利用其訂閱用戶的註冊資訊以及觀看行為構建的知識圖譜來決定《紙牌屋》 拍攝。
2、機器翻譯
• 科大訊飛:曉譯翻譯機1.0plus將世界上最先進的神經網路翻譯系統優化為離線系統。
• 阿里巴巴:2017年初正式上線自主開發的神經網路翻譯系統。 • 騰訊:2017年翻譯君上線同聲傳譯新功能。 • 搜狗:2017年烏鎮世界互聯網大會上展示機器同傳技術;2018年上線翻譯寶,在硬體領域開始探索。
3、聊天機器人
• 概念: 能通過聊天app、聊天窗口或語音喚醒app進行交流的電腦程式,是被用來解決客戶問題的智慧數字化助手 • 特點: 成本低、高效且持續工作 • 對話機器人: Siri、小娜等 • 智慧問答系統: 電商網站的應用如京東客服jimi等
4、文本分類
• 根據文檔的內容或者屬性,將大量的文檔歸到一個或多個類別的過程
• 垃圾電子郵件檢測 • 門戶網站每天產生的資訊分繁雜多,文本分類技術尤為重要
5、搜索引擎
• 涉及技術: 詞義消歧、句法分析、指代消解等。 • 功能: 不單單是幫助用戶找到答案,還能幫助用戶找到所求,連接人與實體世界的服務。 • 基本模式: 自動化地聚合足夠多的內容,對之進行解析、處理和組織,響應用戶的搜索請求找到對應結果返回。
6、推薦系統
起源:1992年Goldberg提出的Tapestry, 這是一個個性化郵件推薦系統,第一次提出了協同過濾的思想技術 技術:數據、演算法、人機交互、數據挖掘技術、資訊檢索技術以及計算統計學等 應用:音樂電影的推薦、電子商務產品推薦、個性化閱讀、社交網路好友推薦等場景。
7、NLP應用文章整理(最近更新~)
(含源碼!)「Fun Paper」見過語音翻譯,但你見過嘴型翻譯嗎?
(含源碼!)「自然語言處理(NLP)」社交媒體輿論防控(RP-DNN)
AAAI 2020「自然語言處理(NLP)論文」影響文本簡化因素分析???
AAAI 2020「自然語言處理(NLP)」【哈爾濱工業大學】多任務自監督學習文本順滑
AAAI 2020「自然語言處理(NLP)」【上海交大】 閱讀理解(DCMN+ 模型)
(含源碼!)「自然語言處理(NLP)」【卡內基梅隆大學 & 微軟】會話響應生成!!
「自然語言處理(NLP)」【Borealis AI】跨域文本連貫生成神經網路模型!!
「自然語言處理(NLP)」【愛丁堡大學】基於實體模型的數據文本生成!!
「自然語言處理(NLP)」CTRL:16.3億個參數的條件轉換語言模型
… …
5
NLP未來發展趨勢
文本理解與推理:淺層分析向深度理解邁進。Google等公司已經推出了以閱讀理解作為深入探索自然語言理解的平台
對話機器人:實用化、場景化。最初的語音助手可以聽得到但是聽不懂,之後的對話機器人可以聽得懂但是實用性卻不強,現在對話機器人更多的是和場景。
結合NLP+行業:與專業領域深度結合。 醫療、金融、教育和司法領域。 學習模式:先驗語言知識與深度學習結合直接的深度學習是直接的端到端,人為貢獻的知識在深度學習中所佔的比重大幅度減小 文本情感分析:事實性文本到情感文本。情感文本分析更受重視,並且在商業和政府輿情上可以得到很好地應用。2017年新浪微輿情和哈工大推出「情緒地圖」。