AI模型也需要资产管理,星环科技重磅推出AI运营平台MLOps
随着企业信息化的提升,AI模型也需要资产管理
数据资产管理作为规划、控制、提供数据和信息资产的一组业务职能,其概念已经被大众所熟知。而随着企业对AI技术应用的日趋深入,在面对多样的AI应用场景下,企业内部会产生大量由各类算法框架训练生成的AI模型,对于模型开发和模型应用管理团队来说,如何管理这些AI模型,也是眼下亟待解决的问题。
其实这些AI模型和企业数据一样,也是企业重要资产的一部分。对AI模型、算法进行有效的资产管理,有助于快速实现企业资源复用、降本增效的目标。为此,星环科技潜心研发了**Sophon MLOps AI能力运营平台,**致力于解决企业在机器学习模型开发及应用过程中遇到的痛点问题,提供标准化的AI能力运营服务。
各类模型训练框架太多?Sophon MLOps帮您统管
Sophon MLOps是星环科技基于云原生架构构建的企业级AI能力运营平台,聚焦于机器学习模型全生命周期中的模型管理、模型部署、模型监控预警、模型评估和模型迭代等关键环节。通过统一纳管、统一运维、统一应用、统一监控,赋予企业客户易用、高效且安全可靠的AI能力运营服务,协助客户规模化管理日益增长的机器学习模型,提升模型使用效率,降低模型集成管理成本,控制模型生产环境风险。
Sophon MLOps为AI运营插上翅膀
Sophon MLOps针对企业AI运营的痛点,围绕企业AI模型接入、运营管理、持续训练的全生命周期,分别提供规模化集成管理、高效模型推理、模型监控预警、模型性能评估、隐私安全保障等功能,为企业的AI日常运营插上翅膀。
规模化集成管理
●统一纳管多源异构的算法框架、模型文件和模型服务,支持XGBoost、MLflow、TensorFlow、PyTorch、Scikit-learn、Spark-MLlib等多种训练框架的模型,以及Sophon Base中通过可视化建模和编程式建模训练得到的模型;
●实时监控模型服务的运行状态,控制模型生产环境风险,如集群资源利用率、吞吐量、使用度、响应时间和访问记录等;
●支持异构运算加速,提供GPU虚拟化共享能力;
●规范化集成管理,统一部署大规模机器学习模型,大幅降低模型管理成本。
高效模型推理服务
●使用图形交互方式,流程化快速构建服务推理图,大幅节省了模型推理的配置成本;
●支持自定义配置包含多模型的复杂推理逻辑,通过定义数据前后处理、路由分发、结果整合等操作的逻辑,灵活适配各类业务场景;
●可视化一键部署模型应用,简化了模型部署的复杂流程。
模型服务发布
●零代码一键部署模型应用,仅需简单配置服务参数,即可快速生成服务API;
●通过调用模型服务API接口,传入业务系统数据,实现模型实时预测支持自定义配置弹性伸缩策略,使用动态伸缩实现负载均衡;
●支持多版本流量分配策略,具备灰度发布,A/B测试能力,有助于选出最佳效果的模型;
●充分支持按需分配推理图各节点的资源使用量,包括CPU、GPU和内存等
模型监控预警及性能评估
●实时监控模型服务的运行状态,控制模型生产环境风险;
●对比模型预测结果与线下真实数据,自动生成多维度性能评估指标的模型评估报告,为迭代优化模型提供重要参考依据。
隐私安全保障
●从安全维度出发,通过Transwarp Guardian和Manager提供多种用户权限控制,满足不同团队、不同用户角色层级对集群环境、资源,以及系统功能的限制需求;
●保障用户间私密数据(如数据集、模型文件等)的信息隔离;
●模型部署环节的关键节点自动触发审批流程,避免服务资源浪费。
精选案例——股份制银行的统一模型管理平台建设
案例背景
在金融科技行业,随着监管政策的不断收紧,银保监会于20年7月正式出台了《商业银行互联网贷款管理暂行办法》⸺要求商业银行落实模型从开发测试、评审、监测到退出的全生命周期的风险管理。因此,为满足监管合规要求,同时提升行内风险模型的管理效率,该行要求对模型全生命周期进行统一管理。
同时,随着行内业务的持续发展,逐渐积累了大量由各类算法框架生成的异构AI模型,且大多分散在不同的业务部门。**如何兼容不同类型的模型文件,并统一纳管行内模型资产,**成为了当前的重要挑战。而在部署应用模型时,需要配置大量的参数代码,且各部门之间的部署方式缺乏统一的流程,导致模型部署周期过长,配置成本增高的同时,模型应用的敏捷性价值反而降低了。
解决方案
针对以上痛点,**该股份制银行使用Sophon MLOps搭建了全行统一的AI模型管理平台,**快速接入行内积累的由不同框架或平台,训练生成的大量模型文件,规模化集成管理模型资产。
平台支持使用标准化流程,统一构建模型推理逻辑,并支持零代码一键部署模型应用;可基于云原生基础架构,实现对模型应用的统一运维;平台还提供持续监控所有已上线的模型应用的功能,并评估模型预测性能,确保结果准确且稳定;同时为模型退出或迭代优化,提供重要参考。
实施成效
**1.异构模型管理:**成功解决了该股份制银行异构模型的管理问题,集成了全行多种算法框架生成的数百个机器学习模型;
**2. 效率与成本的双收:**银行部署模型应用的平均时间由1.5天降至0.5小时,部署效率提升71倍;同时,配置成本降低近80%;
**3. 强大的吞吐能力:**同时支撑银行上百个的模型的在线预测服务,单条数据实现毫秒级响应;
**4. 加速模型迭代:**打通了行方AI模型的全生命周期流程,使模型的平均迭代周期由1月降至1周。