圖解來啦!機器學習工業部署最佳實踐!10分鐘上手機器學習部署與大規模擴展 ⛵
- 2022 年 12 月 1 日
- 筆記
- BentoML, 人工智慧, 機器學習, 機器學習實戰通關指南 ⛵ 全場景覆蓋AI解決方案, 模型部署, 深度學習, 深度學習實戰通關指南 ⛵ 頂級「煉丹師」案例驅動成長之路
💡 作者:韓信子@ShowMeAI
📘 機器學習實戰系列://www.showmeai.tech/tutorials/41
📘 深度學習實戰系列://www.showmeai.tech/tutorials/42
📘 本文地址://www.showmeai.tech/article-detail/396
📢 聲明:版權所有,轉載請聯繫平台與作者並註明出處
📢 收藏ShowMeAI查看更多精彩內容
📘BentoML 是一個用於機器學習模型服務的開源框架,設計初衷是讓數據科學和 DevOps(software development and IT operations)之間的銜接更順暢。數據科學家更多的時候聚焦在模型的效果優化上,而對於模型部署和管理等開發工作涉及不多。藉助 BentoMl 可以輕鬆打包使用任何 ML 框架訓練的模型,並重現該模型以用於生產。
BentoML有以下優點:
- 將 ML 模型轉換為生產就緒的 API 非常簡單
- 高性能模型服務,並且全部使用 Python
- 標準化模型打包和 ML 服務定義以簡化部署
- 支援所有主流的機器學習訓練框架
- 通過 Yatai 在 Kubernetes 上大規模部署和運行 ML 服務
在本篇內容中,ShowMeAI就帶大家來詳細了解一下 BentoML 和模型部署相關的知識和實踐方法。
💡 訓練模型之後的工作
演算法工程師完成針對業務場景的建模與調優之後,我們就需要進行後續上線部署工作。
- 如果團隊中的開發人員(例如後端或前端開發人員)想要使用它,他們需要需要封裝好的服務介面 API 模式。
- 如果 DevOps 團隊想要管理模型的部署,則需要處理模型環境和各種依賴項。
- 如果產品團隊想要對模型進行壓力測試或向客戶展示它,那麼 API 必須擴展到能支撐並發請求。
從構建 ML 模型到實際生產環境使用,有很多工作和注意點:
- 多個 ML 框架的使用和支援
- 創建 API 並以最低性能水平提供服務
- 再現性和依賴性管理
- API 文檔
- 監控、日誌記錄、指標等
下面ShowMeAI帶大家來看看 BentoML 是如何支援所有這些需求的。
💡 BentoML 簡介&核心思想
BentoML 是用於模型服務和部署的端到端解決方案。BentoML 將 ML 項目中需要的一切打包成一種稱為 bento(便當)的分發格式(便當最初是一種日本午餐盒,裡面裝著一份由主菜和一些配菜組成的單份餐點)。
更準確地說,bento 是一個文件存檔,其中包含模型訓練的所有源程式碼、定義的API 、保存的二進位模型、數據文件、Dockerfile、依賴項和其他配置 。我們可以將這裡的「便當」視為用於 ML 的 Docker 映像。
當 bento 構建完成後(下文會詳細說明),你可以將它變成一個可以部署在雲上的 Docker 鏡像,或者使用 bentoctl
(它依賴 Terraform) 將 bento 部署到任何雲服務和基礎設施上(例如 AWS Lambda 或 EC2、GCP Cloud Run、Azure functions等)。
💡 模型版本化及存儲
可以通過pip install bentoml
命令安裝 bentoml
安裝後,
bentoml
命令已添加到您的 shell。
可以使用 BentoML 將模型保存在特定文件夾(稱為模型存儲)中。在下面的示例中,我們保存了一個在鳶尾花數據集上訓練的 SVC 模型。
import bentoml
from sklearn import svm
from sklearn import datasets
# Load training data set
iris = datasets.load_iris()
X, y = iris.data, iris.target
# Train the model
clf = svm.SVC(gamma='scale')
clf.fit(X, y)
# Save model to the BentoML local model store
saved_model = bentoml.sklearn.save_model("iris_clf", clf)
print(f"Model saved: {saved_model}")
# Model saved: Model(tag="iris_clf:hrcxybszzsm3khqa")
這會生成一個唯一的模型標籤,我們可以獲取相應的模型,如下圖所示。
它還會創建一個以模型標籤命名的文件夾。打開和查看此文件夾,會找到二進位文件和一個名為 model.yaml
描述模型元數據。
💡 創建推理服務(模型訪問 API 化)
創建模型並將其保存在模型存儲中後,您可以將其部署為可以請求的 API 。
在下面的示例中 ,用api
當有效負載數據(Numpy Ndarray 類型)通過 HTTP POST 請求發送到 /classify
路徑進行訪問。
import numpy as np
import bentoml
from bentoml.io import NumpyNdarray
iris_clf_runner = bentoml.sklearn.get("iris_clf:latest").to_runner()
svc = bentoml.Service("iris_classifier", runners=[iris_clf_runner])
@svc.api(input=NumpyNdarray(), output=NumpyNdarray())
def classify(input_series: np.ndarray) -> np.ndarray:
result = iris_clf_runner.predict.run(input_series)
return result
接下來就可以通過使用以下命令運行服務來在本地提供模型:
bentoml serve service:svc --reload
上述命令會開啟一個 HTTP 本地服務,我們可以使用 Python 請求該服務,程式碼如下:
import requests
requests.post(
"//127.0.0.1:3000/classify",
headers={"content-type": "application/json"},
data="[[5.9, 3, 5.1, 1.8]]"
).text
'[2]'
也可以通過介面訪問和請求(在瀏覽器訪問 //localhost:3000) )
💡 訂製 bento 「便當」
可以手動訂製 bento 「便當」,我們先創建一個名為bentofile.yaml
的配置文件,它配置了 bento 的構建方式:包括元數據、列出有用的源程式碼並定義包列表。
service: "service:svc" # Same as the argument passed to `bentoml serve`
labels:
owner: bentoml-team
stage: dev
include:
- "*.py" # A pattern for matching which files to include in the bento
python:
packages: # Additional pip packages required by the service
- scikit-learn
- pandas
要構建打包便當,請在包含的文件夾中運行以下命令:
bentoml build
運行完成之後,如果我們查看「便當」並檢查裡面的內容,將看到以下文件夾結構,其中包含以下內容:
- API的描述和架構
- 構建 Docker 鏡像所需的 Dockerfile
- Python及環境依賴
- 經過訓練的模型及其元數據
- 訓練模型和定義 API 路由的源程式碼
- bento 構建選項配置文件
bentoml.yaml
💡 打包 bento 為 Docker 鏡像
創建便當後,您可以使用dockerize
命令來構建鏡像,BentoML 提供了這個簡單的命令方便使用。具體操作如下:
bentoml containerize iris_classifier:latest
構建鏡像後,您可以在系統上查看它:
這裡的 Docker 鏡像是獨立的,用於在本地提供服務或將其部署到雲中。
docker run -it --rm -p 3000:3000 iris_classifier:jclapisz2s6qyhqa serve --production
💡 使用 Runners 擴展並行推理
藉助於bentoml架構,可以獨立運行處理器處理不同服務。也就是說,在預估階段,我們的推理管道可以有任意數量的運行器,並且可以垂直擴展(通過分配更多 CPU)。每個runner也可以有特定的配置(RAM、CPU 與 GPU 等)。
在以下示例中,兩個運行器(一個執行 OCR 任務,另一個執行文本分類)在輸入影像上順序運行。
import asyncio
import bentoml
import PIL.Image
import bentoml
from bentoml.io import Image, Text
transformers_runner = bentoml.transformers.get("sentiment_model:latest").to_runner()
ocr_runner = bentoml.easyocr.get("ocr_model:latest").to_runner()
svc = bentoml.Service("sentiment_analysis", runners=[transformers_runner, ocr_runner])
@svc.api(input=Image(),output=Text())
def classify(input: PIL.Image.Image) -> str:
ocr_text = ocr_runner.run(input)
return transformers_runner.run(ocr_text)
對於 runners 感興趣的同學可以在 📘這裡 查看官方的更多講解.
💡 自適應批處理
在機器學習中,批處理是很常見的處理模式,在批處理模式下,可以並行地進行數據處理,而非串列等待。它提高了性能和吞吐量並利用了加速硬體(我們都知道GPU就可以對向量化計算進行批量化處理)。
不過FastAPI、Flask 或 Django 等 Web 框架沒有處理批處理的機制。但是 BentoML 為批處理提供了一個很好的解決方案。它是上圖這樣一個處理過程:
- 多輸入請求並行處理
- 負載均衡器在worker之間分發請求(worker是 API 伺服器的運行實例)
- 每個worker將請求分發給負責推理的模型運行器
- 每個運行器通過在延遲和吞吐量之間找到權衡來動態地將請求分批分組
- runner對每個批次進行預測
- 最後將批量預測拆分並作為單獨的響應返回
要啟用批處理,我們需要設置batchable
參數為True
。如下例:
bentoml.pytorch.save_model(
name="mnist",
model=model,
signature={
"__call__": {
"batchable": True,
"batch_dim": (0, 0),
},
},
)
對於批處理感興趣的同學可以在 📘這裡 查看官方的更多講解.
💡 並行推理
BentoML 的 runners 設計非常巧妙,我們可以根據需要組合它們,創建可自定義的推理圖。在前面的示例中,我們觀察了兩個順序運行的runner(任務順序為 OCR -> 文本分類)。
下面示例中,可以看到運行器也可以通過非同步請求並發運行。
import asyncio
import PIL.Image
import bentoml
from bentoml.io import Image, Text
preprocess_runner = bentoml.Runner(MyPreprocessRunnable)
model_a_runner = bentoml.xgboost.get('model_a:latest').to_runner()
model_b_runner = bentoml.pytorch.get('model_b:latest').to_runner()
svc = bentoml.Service('inference_graph_demo', runners=[
preprocess_runner,
model_a_runner,
model_b_runner
])
@svc.api(input=Image(), output=Text())
async def predict(input_image: PIL.Image.Image) -> str:
model_input = await preprocess_runner.async_run(input_image)
results = await asyncio.gather(
model_a_runner.async_run(model_input),
model_b_runner.async_run(model_input),
)
return post_process(
results[0], # model a result
results[1], # model b result
)
💡 雲端部署
BentoML 的「便當」的妙處在於,一旦完成構建,我們可以通過兩種方式部署它:
- ① 將 Docker 鏡像推送和部署到雲端
- ② 通過使用由 BentoML 團隊開發的 bentoctl 來部署
使用 bentoctl 有助於將構建的 bento 部署為雲上的生產就緒 API 端點。它支援許多雲提供商(AWS、GCS、Azure、Heroku)以及同一雲提供商(AWS Lambda、EC2 等)中的多種服務。核心的部署步驟為:
- 安裝 BentoML
- 安裝 📘Terraform
- 設置 AWS CLI 並完成配置(請參閱 📘安裝指南 )
- 安裝 bentoctl (
pip install bentoctl
) - 構建好 bento「便當」
- 安裝允許在 AWS Lambda 上部署的 aws-lambda 運算符(bentoctl 也支援其他運算符):
bentoctl operator install aws-lambda
- 通過運行生成部署文件
bentoctl init
- 通過運行構建部署所需的鏡像
bentoctl build
- 通過運行 🚀 部署到 Lambda
bentoctl apply -f deployment_config.yaml
部署完成後,系統會提示您提供一個 API URL,我們可以請求該 URL 與模型進行交互。
💡 API 文檔和互動式 UI
當部署 BentoML 服務或在本地提供服務時,可以訪問 📘Swagger UI,藉助它可以可視化 API 資源並與之交互。如下例,它根據 OpenAPI 規範生成的,非常方便後端和客戶端調用服務使用。
參考資料
- 📘 BentoML官方網站://www.bentoml.com/
- 📘 runners官方講解://docs.bentoml.org/en/latest/concepts/runner.html
- 📘 批處理官方教程://docs.bentoml.org/en/latest/guides/batching.html
- 📘 Terraform官方安裝教程://developer.hashicorp.com/terraform/tutorials/aws-get-started/install-cli
- 📘 AWS CLI安裝與配置指南://docs.aws.amazon.com/cli/latest/userguide/getting-started-install.html
- 📘 Swagger UI://swagger.io/tools/swagger-ui/
- 📘 Comprehensive Guide to Deploying Any ML Model as APIs With Python And AWS Lambda
- 📘 Breaking Up With Flask & FastAPI: Why ML Model Serving Requires A Specialized Framework
推薦閱讀
- 🌍 數據分析實戰系列 ://www.showmeai.tech/tutorials/40
- 🌍 機器學習數據分析實戰系列://www.showmeai.tech/tutorials/41
- 🌍 深度學習數據分析實戰系列://www.showmeai.tech/tutorials/42
- 🌍 TensorFlow數據分析實戰系列://www.showmeai.tech/tutorials/43
- 🌍 PyTorch數據分析實戰系列://www.showmeai.tech/tutorials/44
- 🌍 NLP實戰數據分析實戰系列://www.showmeai.tech/tutorials/45
- 🌍 CV實戰數據分析實戰系列://www.showmeai.tech/tutorials/46
- 🌍 AI 面試題庫系列://www.showmeai.tech/tutorials/48