AI模型也需要資產管理,星環科技重磅推出AI運營平台MLOps
隨著企業資訊化的提升,AI模型也需要資產管理
數據資產管理作為規劃、控制、提供數據和資訊資產的一組業務職能,其概念已經被大眾所熟知。而隨著企業對AI技術應用的日趨深入,在面對多樣的AI應用場景下,企業內部會產生大量由各類演算法框架訓練生成的AI模型,對於模型開發和模型應用管理團隊來說,如何管理這些AI模型,也是眼下亟待解決的問題。
其實這些AI模型和企業數據一樣,也是企業重要資產的一部分。對AI模型、演算法進行有效的資產管理,有助於快速實現企業資源復用、降本增效的目標。為此,星環科技潛心研發了**Sophon MLOps AI能力運營平台,**致力於解決企業在機器學習模型開發及應用過程中遇到的痛點問題,提供標準化的AI能力運營服務。
各類模型訓練框架太多?Sophon MLOps幫您統管
Sophon MLOps是星環科技基於雲原生架構構建的企業級AI能力運營平台,聚焦於機器學習模型全生命周期中的模型管理、模型部署、模型監控預警、模型評估和模型迭代等關鍵環節。通過統一納管、統一運維、統一應用、統一監控,賦予企業客戶易用、高效且安全可靠的AI能力運營服務,協助客戶規模化管理日益增長的機器學習模型,提升模型使用效率,降低模型集成管理成本,控制模型生產環境風險。
Sophon MLOps為AI運營插上翅膀
Sophon MLOps針對企業AI運營的痛點,圍繞企業AI模型接入、運營管理、持續訓練的全生命周期,分別提供規模化集成管理、高效模型推理、模型監控預警、模型性能評估、隱私安全保障等功能,為企業的AI日常運營插上翅膀。
規模化集成管理
●統一納管多源異構的演算法框架、模型文件和模型服務,支援XGBoost、MLflow、TensorFlow、PyTorch、Scikit-learn、Spark-MLlib等多種訓練框架的模型,以及Sophon Base中通過可視化建模和編程式建模訓練得到的模型;
●實時監控模型服務的運行狀態,控制模型生產環境風險,如集群資源利用率、吞吐量、使用度、響應時間和訪問記錄等;
●支援異構運算加速,提供GPU虛擬化共享能力;
●規範化集成管理,統一部署大規模機器學習模型,大幅降低模型管理成本。
高效模型推理服務
●使用圖形交互方式,流程化快速構建服務推理圖,大幅節省了模型推理的配置成本;
●支援自定義配置包含多模型的複雜推理邏輯,通過定義數據前後處理、路由分發、結果整合等操作的邏輯,靈活適配各類業務場景;
●可視化一鍵部署模型應用,簡化了模型部署的複雜流程。
模型服務發布
●零程式碼一鍵部署模型應用,僅需簡單配置服務參數,即可快速生成服務API;
●通過調用模型服務API介面,傳入業務系統數據,實現模型實時預測支援自定義配置彈性伸縮策略,使用動態伸縮實現負載均衡;
●支援多版本流量分配策略,具備灰度發布,A/B測試能力,有助於選出最佳效果的模型;
●充分支援按需分配推理圖各節點的資源使用量,包括CPU、GPU和記憶體等
模型監控預警及性能評估
●實時監控模型服務的運行狀態,控制模型生產環境風險;
●對比模型預測結果與線下真實數據,自動生成多維度性能評估指標的模型評估報告,為迭代優化模型提供重要參考依據。
隱私安全保障
●從安全維度出發,通過Transwarp Guardian和Manager提供多種用戶許可權控制,滿足不同團隊、不同用戶角色層級對集群環境、資源,以及系統功能的限制需求;
●保障用戶間私密數據(如數據集、模型文件等)的資訊隔離;
●模型部署環節的關鍵節點自動觸發審批流程,避免服務資源浪費。
精選案例——股份制銀行的統一模型管理平台建設
案例背景
在金融科技行業,隨著監管政策的不斷收緊,銀保監會於20年7月正式出台了《商業銀行互聯網貸款管理暫行辦法》⸺要求商業銀行落實模型從開發測試、評審、監測到退出的全生命周期的風險管理。因此,為滿足監管合規要求,同時提升行內風險模型的管理效率,該行要求對模型全生命周期進行統一管理。
同時,隨著行內業務的持續發展,逐漸積累了大量由各類演算法框架生成的異構AI模型,且大多分散在不同的業務部門。**如何兼容不同類型的模型文件,並統一納管行內模型資產,**成為了當前的重要挑戰。而在部署應用模型時,需要配置大量的參數程式碼,且各部門之間的部署方式缺乏統一的流程,導致模型部署周期過長,配置成本增高的同時,模型應用的敏捷性價值反而降低了。
解決方案
針對以上痛點,**該股份制銀行使用Sophon MLOps搭建了全行統一的AI模型管理平台,**快速接入行內積累的由不同框架或平台,訓練生成的大量模型文件,規模化集成管理模型資產。
平台支援使用標準化流程,統一構建模型推理邏輯,並支援零程式碼一鍵部署模型應用;可基於雲原生基礎架構,實現對模型應用的統一運維;平台還提供持續監控所有已上線的模型應用的功能,並評估模型預測性能,確保結果準確且穩定;同時為模型退出或迭代優化,提供重要參考。
實施成效
**1.異構模型管理:**成功解決了該股份制銀行異構模型的管理問題,集成了全行多種演算法框架生成的數百個機器學習模型;
**2. 效率與成本的雙收:**銀行部署模型應用的平均時間由1.5天降至0.5小時,部署效率提升71倍;同時,配置成本降低近80%;
**3. 強大的吞吐能力:**同時支撐銀行上百個的模型的在線預測服務,單條數據實現毫秒級響應;
**4. 加速模型迭代:**打通了行方AI模型的全生命周期流程,使模型的平均迭代周期由1月降至1周。