nlp模型-bert從入門到精通(二)

  • 2019 年 10 月 25 日
  • 筆記

版權聲明:本文為部落客原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。

本文鏈接:https://blog.csdn.net/HHTNAN/article/details/100739168

命名實體識別

首先下載相應bert 模組

pip install bert-base==0.0.9 -i https://pypi.python.org/simple

也可參考官網處理 安裝

軟體包現在支援的功能 1.命名實體識別的訓練 2.命名實體識別的服務C/S 3.繼承優秀開源軟體:bert_as_service(hanxiao)的BERT所有服務 4.文本分類服務 後續功能會繼續增加

基於命名行訓練命名實體識別模型:

安裝完bert-base後,會生成兩個基於命名行的工具,其中bert-base-ner-train支援命名實體識別模型的訓練,你只需要指定訓練數據的目錄,BERT相關參數的目錄即可。可以使用下面的命令查看幫助

訓練的事例命名如下:

bert-base-ner-train       -data_dir {your dataset dir}      -output_dir {training output dir}      -init_checkpoint {Google BERT model dir}      -bert_config_file {bert_config.json under the Google BERT model dir}       -vocab_file {vocab.txt under the Google BERT model dir}

參數說明 其中data_dir是你的數據所在的目錄,訓練數據,驗證數據和測試數據命名格式為:train.txt, dev.txt,test.txt,請按照這個格式命名文件,否則會報錯。 訓練數據的格式如下:

海 O  釣 O  比 O  賽 O  地 O  點 O  在 O  廈 B-LOC  門 I-LOC  與 O  金 B-LOC  門 I-LOC  之 O  間 O  的 O  海 O  域 O  。 O

每行得第一個是字,第二個是它的標籤,使用空格』 '分隔,請一定要使用空格。句與句之間使用空行劃分。程式會自動讀取你的數據。

output_dir: 訓練模型輸出的文件路徑,模型的checkpoint以及一些標籤映射表都會存儲在這裡,這個路徑在作為服務的時候,可以指定為-ner_model_dir init_checkpoint: 下載的GoogleBERT模型 bert_config_file : GoogleBERT模型下面的bert_config.json vocab_file: GoogleBERT模型下面的vocab.txt 訓練完成後,你可以在你指定的output_dir中查看訓練結果。

更多操作: https://blog.csdn.net/macanv/article/details/85684284

還有一個bert模型的封裝

https://www.jianshu.com/p/1d6689851622 https://cloud.tencent.com/developer/article/1470051 https://www.h3399.cn/201908/714454.html