nlp詞性標註的作用

  • 2020 年 1 月 19 日
  • 筆記

詞性標註 – 除了語法關係,句中單詞的位置(詞性)標記也蘊含著資訊,詞的位置定義了它的用途和功能。賓夕法尼亞大學提供了一個完整的位置標記列表。下方程式碼則使用了NLTK庫來對輸入的文本進行詞性標註。

from nltk import word_tokenize, pos_tag  text = "I am learning Natural Language Processing on Analytics Vidhya"  tokens = word_tokenize(text)  print pos_tag(tokens)  >>> [('I', 'PRP'), ('am', 'VBP'), ('learning', 'VBG'), ('Natural',  'NNP'),('Language', 'NNP'),('Processing', 'NNP'), ('on', 'IN'),  ('Analytics', 'NNP'),('Vidhya', 'NNP')]

在NLP中,詞性標註有個很多重要用途:

A.消除歧義: 一些詞的不同用法代表不同的意思. 如下列兩句:

I. 「Please book my flight for Delhi」

II. 「I am going to read this book in the flight」

「Book」 在這裡代表不同的意義, 好在它在兩句的位置也不同. 第一句「book」是的動詞, 第二句中它是個名詞。 (Lesk Algorithm也被用於類似目的)

B.強化基於單詞的特徵: 一個機器學習模型可以從一個詞的很多方面提取資訊,但如果一個詞已經標註了詞性,那麼它作為特徵就能提供更精準的資訊。 例如:

句子 -「book my flight, I will read this book」

單詞 – (「book」, 2), (「my」, 1), (「flight」, 1), (「I」, 1), (「will」, 1), (「read」, 1), (「this」, 1)

帶標註的單詞 – (「book_VB」, 1), (「my_PRP$」, 1), (「flight_NN」, 1), (「I_PRP」, 1), (「will_MD」, 1), (「read_VB」, 1), (「this_DT」, 1), (「book_NN」, 1)

譯者註:如果不帶詞性標註,兩個「book」就被認為是同義詞,詞頻為2。這會在後續分析中引入誤差。

C.標準化與詞形還原: 位置標註是詞形還原的基礎步驟之一,可以幫助把單詞還原為基本形式.

D.有效移除停用詞 : 利用位置標記可以有效地去除停用詞。