NLP（十七）利用tensorflow-serving部署kashgari模型

2019 年 10 月 3 日
笔记

在文章NLP（十五）让模型来告诉你文本中的时间中，我们已经学会了如何利用kashgari模块来完成序列标注模型的训练与预测，在本文中，我们将会了解如何tensorflow-serving来部署模型。
在kashgari的官方文档中，已经有如何利用tensorflow-serving来部署模型的说明了，网址为：https://kashgari.bmio.net/advance-use/tensorflow-serving/ 。
下面，本文将介绍tensorflow-serving以及如何利用tensorflow-serving来部署kashgari的模型。

tensorflow-serving

TensorFlow Serving 是一个用于机器学习模型 serving 的高性能开源库。它可以将训练好的机器学习模型部署到线上，使用 gRPC 作为接口接受外部调用。更加让人眼前一亮的是，它支持模型热更新与自动模型版本管理。这意味着一旦部署 TensorFlow Serving 后，你再也不需要为线上服务操心，只需要关心你的线下模型训练。
TensorFlow Serving可以方便我们部署TensorFlow模型，本文将使用TensorFlow Serving的Docker镜像来使用TensorFlow Serving，安装的命令如下：

docker pull tensorflow/serving

工程实践

本项目将演示如何利用tensorflow/serving来部署kashgari中的模型，项目结构如下：

本项目的data来自之前笔者标注的时间数据集，即标注出文本中的时间，采用BIO标注系统。chinese_wwm_ext文件夹为哈工大的预训练模型文件。
model_train.py为模型训练的代码，主要功能是完成时间序列标注模型的训练，完整的代码如下：

# -*- coding: utf-8 -*-  # time: 2019-09-12  # place: Huangcun Beijing    import kashgari  from kashgari import utils  from kashgari.corpus import DataReader  from kashgari.embeddings import BERTEmbedding  from kashgari.tasks.labeling import BiLSTM_CRF_Model    # 模型训练    train_x, train_y = DataReader().read_conll_format_file('./data/time.train')  valid_x, valid_y = DataReader().read_conll_format_file('./data/time.dev')  test_x, test_y = DataReader().read_conll_format_file('./data/time.test')    bert_embedding = BERTEmbedding('chinese_wwm_ext_L-12_H-768_A-12',                                 task=kashgari.LABELING,                                 sequence_length=128)    model = BiLSTM_CRF_Model(bert_embedding)    model.fit(train_x, train_y, valid_x, valid_y, batch_size=16, epochs=1)    # Save model  utils.convert_to_saved_model(model,                               model_path='saved_model/time_entity',                               version=1)

运行该代码，模型训练完后会生成saved_model文件夹，里面含有模型训练好后的文件，方便我们利用tensorflow/serving进行部署。接着我们利用tensorflow/serving来完成模型的部署，命令如下：

docker run -t --rm -p 8501:8501 -v "/Users/jclian/PycharmProjects/kashgari_tf_serving/saved_model:/models/" -e MODEL_NAME=time_entity tensorflow/serving

其中需要注意该模型所在的路径，路径需要写完整路径，以及模型的名称（MODEL_NAME），这在训练代码（train.py）中已经给出（saved_model/time_entity）。

接着我们使用tornado来搭建HTTP服务，帮助我们方便地进行模型预测，runServer.py的完整代码如下：

# -*- coding: utf-8 -*-  import requests  from kashgari import utils  import numpy as np  from model_predict import get_predict    import json  import tornado.httpserver  import tornado.ioloop  import tornado.options  import tornado.web  from tornado.options import define, options  import traceback    # tornado高并发  import tornado.web  import tornado.gen  import tornado.concurrent  from concurrent.futures import ThreadPoolExecutor    # 定义端口为12333  define("port", default=16016, help="run on the given port", type=int)    # 模型预测  class ModelPredictHandler(tornado.web.RequestHandler):      executor = ThreadPoolExecutor(max_workers=5)        # get 函数      @tornado.gen.coroutine      def get(self):          origin_text = self.get_argument('text')          result = yield self.function(origin_text)          self.write(json.dumps(result, ensure_ascii=False))        @tornado.concurrent.run_on_executor      def function(self, text):          try:              text = text.replace(' ', '')              x = [_ for _ in text]                # Pre-processor data              processor = utils.load_processor(model_path='saved_model/time_entity/1')              tensor = processor.process_x_dataset([x])                # only for bert Embedding              tensor = [{                  "Input-Token:0": i.tolist(),                  "Input-Segment:0": np.zeros(i.shape).tolist()              } for i in tensor]                # predict              r = requests.post("http://localhost:8501/v1/models/time_entity:predict", json={"instances": tensor})              preds = r.json()['predictions']                # Convert result back to labels              labels = processor.reverse_numerize_label_sequences(np.array(preds).argmax(-1))                entities = get_predict('TIME', text, labels[0])                return entities            except Exception:              self.write(traceback.format_exc().replace('n', '<br>'))      # get请求  class HelloHandler(tornado.web.RequestHandler):      def get(self):          self.write('Hello from lmj from Daxing Beijing!')      # 主函数  def main():      # 开启tornado服务      tornado.options.parse_command_line()      # 定义app      app = tornado.web.Application(              handlers=[(r'/model_predict', ModelPredictHandler),                        (r'/hello', HelloHandler),                        ], #网页路径控制            )      http_server = tornado.httpserver.HTTPServer(app)      http_server.listen(options.port)      tornado.ioloop.IOLoop.instance().start()    main()

我们定义了tornado封装HTTP服务来进行模型预测，运行该脚本，启动模型预测的HTTP服务。接着我们再使用Python脚本才测试下模型的预测效果以及预测时间，预测的代码脚本的完整代码如下：

import time  import json  import requests    t1 = time.time()  texts = ['据《新闻联播》报道，9月9日至11日，中央纪委书记赵乐际到河北调研。',           '记者从国家发展改革委、商务部相关方面获悉，日前美方已决定对拟于10月1日实施的中国输美商品加征关税措施做出调整，中方支持相关企业从即日起按照市场化原则和WTO规则，自美采购一定数量大豆、猪肉等农产品，国务院关税税则委员会将对上述采购予以加征关税排除。',           '据印度Zee新闻网站12日报道，亚洲新闻国际通讯社援引印度军方消息人士的话说，9月11日的对峙事件发生在靠近班公错北岸的实际控制线一带。',           '儋州市决定，从9月开始，对城市低保、农村低保、特困供养人员、优抚对象、领取失业保险金人员、建档立卡未脱贫人口等低收入群体共3万多人，发放猪肉价格补贴，每人每月发放不低于100元补贴，以后发放标准，将根据猪肉价波动情况进行动态调整。',           '9月11日，华为心声社区发布美国经济学家托马斯.弗里德曼在《纽约时报》上的专栏内容，弗里德曼透露，在与华为创始人任正非最近一次采访中，任正非表示华为愿意与美国司法部展开话题不设限的讨论。',           '造血干细胞移植治疗白血病技术已日益成熟，然而，通过该方法同时治愈艾滋病目前还是一道全球尚在攻克的难题。',           '英国航空事故调查局（AAIB）近日披露，今年2月6日一趟由德国法兰克福飞往墨西哥坎昆的航班上，因飞行员打翻咖啡使操作面板冒烟，导致飞机折返迫降爱尔兰。',           '当地时间周四（9月12日），印度尼西亚财政部长英卓华（Sri Mulyani Indrawati）明确表示：特朗普的推特是风险之一。',           '华中科技大学9月12日通过其官方网站发布通报称，9月2日，我校一硕士研究生不幸坠楼身亡。',           '微博用户@ooooviki 9月12日下午公布发生在自己身上的惊悚遭遇：一个自称网警、名叫郑洋的人利用职务之便，查到她的完备的个人信息，包括但不限于身份证号、家庭地址、电话号码、户籍变动情况等，要求她做他女朋友。',           '今天，贵阳取消了汽车限购，成为目前全国实行限购政策的9个省市中，首个取消限购的城市。',           '据悉，与全球同步，中国区此次将于9月13日于iPhone官方渠道和京东正式开启预售，京东成Apple中国区唯一官方授权预售渠道。',           '根据央行公布的数据，截至2019年6月末，存款类金融机构住户部门短期消费贷款规模为9.11万亿元，2019年上半年该项净增3293.19亿元，上半年增量看起来并不乐观。',           '9月11日，一段拍摄浙江万里学院学生食堂的视频走红网络，视频显示该学校食堂不仅在用餐区域设置了可以看电影、比赛的大屏幕，还推出了“一人食”餐位。',           '当日，在北京举行的2019年国际篮联篮球世界杯半决赛中，西班牙队对阵澳大利亚队。',           ]    print(len(texts))    for text in texts:      url = 'http://localhost:16016/model_predict?text=%s' % text      req = requests.get(url)      print(json.loads(req.content))    t2 = time.time()    print(round(t2-t1, 4))

运行该代码，输出的结果如下：（预测文本中的时间）

一共预测15个句子。  ['9月9日至11日']  ['日前', '10月1日', '即日']  ['12日', '9月11日']  ['9月']  ['9月11日']  []  ['近日', '今年2月6日']  ['当地时间周四（9月12日）']  ['9月12日', '9月2日']  ['9月12日下午']  ['今天', '目前']  ['9月13日']  ['2019年6月末', '2019年上半年', '上半年']  ['9月11日']  ['当日', '2019年']  预测耗时: 15.1085s.

模型预测的效果还是不错的，但平均每句话的预测时间为1秒多，模型预测时间还是稍微偏长，后续笔者将会研究如何缩短模型预测的时间。

总结

本项目主要是介绍了如何利用tensorflow-serving部署kashgari模型，该项目已经上传至github，地址为：https://github.com/percent4/tensorflow-serving_4_kashgari 。
至于如何缩短模型预测的时间，笔者还需要再继续研究，欢迎大家关注～