初學者|還沒聽過flair嗎

2019 年 10 月 10 日
筆記

本文介紹了flair的使用方法，Flair是最近開源的一個基於Pytorch的NLP框架，它是一個功能強大的NLP庫。Flair允許您將最先進的自然語言處理（NLP）模型應用於文本，例如命名實體識別（NER），詞性標註（PoS），意義消歧和分類。

簡介

Flair是最近開源的一個基於Pytorch的NLP框架，據官方github介紹，它具有以下特點：

一個功能強大的NLP庫。Flair允許您將最先進的自然語言處理（NLP）模型應用於您的文本，例如命名實體識別（NER），詞性標註（PoS），意義消歧和分類。

文本嵌入庫。Flair具有簡單的界面，允許您使用和組合不同的單詞和文檔嵌入，包括作者提出的上下文字符串嵌入（文章：COLING2018-Contextual String Embeddings for Sequence Labeling）。

Pytorch NLP框架。框架直接在Pytorch上構建，使得可以輕鬆地訓練自己的模型，並使用Flair嵌入和類來嘗試新方法。

GitHub地址：https://github.com/zalandoresearch/flair

實戰

1.安裝

# 安裝環境：官網說目前對linux支持較好，以下為我在winodw上測試環境  # windows 10  # PyTorch 0.4+  # Python 3.6+  # pip install flair

這個庫包含兩種類型：Sentence和Token, Sentence類型包含我們想要處理的一個句，是Token類型的集合：

from flair.data import Sentence  sentence = Sentence('The grass is green .')  # 輸出顯示這個句子由5個Token組成  print(sentence)    Sentence: "The grass is green ." - 5 Tokens

可以通過Token ID或其索引訪問句子的Token：

# 使用 token id  print(sentence.get_token(4))  # 使用索引  print(sentence[3])    Token: 4 green  Token: 4 green    # 迭代輸出token  for token in sentence:   print(token)    Token: 1 The  Token: 2 grass  Token: 3 is  Token: 4 green  Token: 5 .

Tokenization：一些情況下，文本未Tokenization

from flair.data import Sentence  # 設置use_tokenizer參數  sentence = Sentence('The grass is green.', use_tokenizer=True)  print(sentence)    Sentence: "The grass is green ." - 5 Tokens

Adding Tags to Tokens（為token打標籤）

# token具有用於語言注釋的字段，如lemmas、詞性標記或命名實體標記。可以通過指定標籤類型和標籤值來添加標籤。  # 給句子中某個詞加標籤  sentence[3].add_tag('ner', 'color')  # 可以看到，輸出green後面帶有命名實體標籤'color'  print(sentence.to_tagged_string())    The grass is green <color> .

Adding Labels to Sentences（給句子打標籤）

# 句子可以具有一個或多個標籤，例如，這些標籤可用於文本分類任務。  sentence = Sentence('France is the current world cup winner.')  # 給句子增加一個sports標籤  sentence.add_label('sports')  print(sentence.labels)    [sports (1.0)]    # 給句子增加多個標籤  sentence = Sentence('France is the current world cup winner.')  sentence.add_labels(['sports', 'world cup'])  print(sentence.labels)    [sports (1.0), world cup (1.0)]

2.使用詞向量教程

# Flair提供了很多Class，可以通過很多方法獲得詞/句子嵌入。詞嵌入類都繼承自TokenEmbeddings類，並實現embed（）方法，您需要調用該方法來嵌入文本。  # 生成的所有嵌入都是Pytorch向量，因此它們可以立即用於訓練和微調。  # 經典的詞嵌入是靜態的和單詞級的，這意味着每個不同的單詞只能獲得一個預先計算的嵌入。大多數詞嵌入都屬於這一類，包括流行的GloVe或Komnios嵌入。  # 上下文字符嵌入是一類強大的詞嵌入，能夠更好的捕獲潛在的語法語義信息。  # Stacked Embeddings（堆疊嵌入）是此庫中最重要的概念之一。您可以使用它們將不同的嵌入組合在一起。

Classic Word Embeddings

from flair.embeddings import WordEmbeddings  # c:usersyuquanleanaconda3envspython36libsite-packagesgensimutils.py:1197: UserWarning: detected Windows; aliasing chunkize to chunkize_serial warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")  # 載入glove詞向量，需要下載預訓練模型（我網速太差好久沒下載下來）  # glove_embedding = WordEmbeddings('glove')  # 轉換在Glove官網下載的詞向量  # 看這裡：https://github.com/zalandoresearch/flair/issues/4  import gensim  vectors = gensim.models.KeyedVectors.load_word2vec_format('wiki-news-300d-1M.vec', binary=False)  vectors.save('fasttext_gensim')  # 載入轉換後的glove詞向量  embeddings = WordEmbeddings('fasttext_gensim')  from flair.data import Sentence  sentence = Sentence('the grass is green .')  for token in sentence:   print(token)   print(token.embedding)  # c:usersyuquanleanaconda3envspython36libsite-packagesgensimutils.py:1197: UserWarning: detected Windows; aliasing chunkize to chunkize_serial warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")

Contextual String Embeddings

from flair.embeddings import CharLMEmbeddings  charlm_embedding_forward = CharLMEmbeddings('news-forward-fast')  sentence = Sentence('The grass is green .')  # charlm_embedding_forward.embed(sentence)  for token in sentence:   print(token)   print(token.embedding)    Token: 1 The  tensor([ 0.0021, -0.0000, -0.0057, ..., -0.0000, -0.0001, 0.0163])  Token: 2 grass  tensor([-0.0009, -0.0000, 0.0248, ..., -0.0000, 0.0006, 0.0057])  Token: 3 is  tensor([ 0.0018, -0.0002, 0.0298, ..., -0.0000, 0.0000, 0.0003])  Token: 4 green  tensor([-0.0004, -0.0000, 0.0046, ..., -0.0000, -0.0001, 0.0345])  Token: 5 .  tensor([ 0.0008, -0.0000, 0.0050, ..., -0.0000, -0.0000, 0.0021])

Character Embeddings

from flair.embeddings import CharacterEmbeddings  embedding = CharacterEmbeddings()  sentence = Sentence('The grass is green .')  for token in sentence:   print(token)   print(token.embedding)

Stacked Embeddings

from flair.embeddings import WordEmbeddings, CharLMEmbeddings  # c:usersyuquanleanaconda3envspython36libsite-packagesgensimutils.py:1197: UserWarning: detected Windows; aliasing chunkize to chunkize_serial warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")  # init GloVe embedding  glove_embedding = WordEmbeddings('fasttext_gensim')  # init CharLM embeddings  charlm_embedding_forward = CharLMEmbeddings('news-forward')  #charlm_embedding_backward = CharLMEmbeddings('news-backward')  from flair.embeddings import StackedEmbeddings  stacked_embeddings = StackedEmbeddings(   embeddings=[glove_embedding, charlm_embedding_forward])  for token in sentence:   print(token)   print(token.embedding)

flair工具是非常強大的，如果想更多的了解用法，github上有更多的教程，包括：

代碼已上傳：1.https://github.com/yuquanle/StudyForNLP/blob/master/NLPtools/FlairDemo1.ipynb

2.https://github.com/yuquanle/StudyForNLP/blob/master/NLPtools/FlairDemo3.ipynb

The End

初學者|還沒聽過flair嗎

VirMach 便宜 VPS

QNews

初學者|還沒聽過flair嗎

分享此文：

Related Posts

『學了就忘』Linux軟件包管理 — 42、對RPM軟件包的查詢操作

AR Engine運動跟蹤能力，高精度實現沉浸式AR體驗

MySQL 重置Mysql root用戶賬號密碼

簡單介紹TCP三次握手的那些事

VirMach 便宜 VPS

QNews

熱門搜尋