如何解決AI落地難題,構建統一協作的企業級AI平台
在中國政策引導、企業產業智慧升級的原生需求和疫情等多重因素作用下,中國的人工智慧產業化應用在過去的5年間呈現出無可比擬的增長速度。2020年的中國人工智慧軟體市場規模已經超過了230億元人民幣,即便在疫情等外部因素考驗下,仍舊迎來了平穩的增長。
然而隨著應用市場的下沉,市場上仍舊缺乏普惠的AI工具,即便在企業擁有相關開發、建模人才的情況下,AI科學家和業務人員之間仍舊存在技術鴻溝。他們習慣使用各自的平台和工具進行數據分析或建模工作,這些數據資產被分散在企業各個角落,造成了模型的重複構建和資源的孤島林立。**而這些人才無法在同一個AI平台上一起協作,發揮出他們各自的優勢能力,**這是AI落地目前面臨最大的挑戰。
01
企業AI落地,到底難在哪裡
企業在涉及到人工智慧業務時,其研發流程需經歷從明確業務問題->數據採集及清洗->特徵工程->模型訓練及打包->模型評估及驗證->模型部署及上線->A/B test,****以及模型監控和迭代的工作流程。整個鏈條非常長,容易涉及到多個平台間的切換。在任何環節出現功能短板或缺失,都會影響模型的開發效率和開發品質,或導致模型無法及時在實際業務當中部署應用。
圖1:AI模型研發流程
在AI建模全生命周期中,涉及到企業內各類角色的協作,如:行業/領域專家、數據科學家、數據工程師、開發者/DevOps專家等等。這些角色均有各自擅長的技能,可以為AI建模的某些流程貢獻智慧,如行業/領域專家對業務有深入洞見,擅長通過數據構建業務模型;數據科學家擅長數據分析、特徵加工、ML模型開發及測試;數據工程師擅長進行數據收集、數據治理和數據加工;開發者/DevOps專家擅長軟體工具及基礎設施的構建與維護,幫助數據科學家將ML模型轉化為實際生產力。
圖2:AI相關人才技能地圖(來源:Gartner)
這些角色由於專業背景和職能的不同,都習慣使用各自的平台或工具推進工作,在流程銜接方面會存在大量重複性數據、環境適配工作,造成AI模型開發的周期大大拉長,且無法進行數據、模型等資源的統一管理和資產沉澱。
02
星環科技推出Sophon MLOps——
模型落地和AI協作的加速器
為解決AI落地難的問題,星環科技的AI團隊從用戶需求端出發,傾力研發了一款基於雲原生架構的企業級AI能力運營平台Sophon MLOps,**助推AI模型落地,幫助各種相關角色使用同一個平台進行模型構建和流程緊密協作,**並且為AI落地的每一環流程進行了優化,為所有使用者提供便捷的體驗。
MLOps與DevOps類似,是機器學習過程管理的實踐性方法論。MLOps平台為用戶串聯起了從模型設計、開發到運營的全生命周期,並提供自動化的功能,有效提高各環節的工作效率。
圖3:MLOps的定義
對於各用戶角色而言,**都能憑藉Sophon Base基礎建模平台及MLOps運維平台提供的個性化功能,獲得不同工作環節上的效率提升,**比如:為業務分析人員提供了低程式碼功能,封裝了200多個運算元可供點擊使用;為數據科學家提供了高性能的分散式模型開發&訓練環境及在線Notebook功能,方便其進行數據探索、特徵工程及模型構建工作;為數據工程師提供了方便的模型打包、上架和調試功能,方便其快速將模型上架到實際生產環境;為前台業務人員提供了API調用、A/B test及報告生成功能,方便其快速獲取結果數據,並及時查看不同模型對業務的實際效果,並可以發送到數據科學家手中,進行後續的模型迭代和調優工作。
功能示例:
1、 支援多個模型的複雜推理圖構建
Sophon MLOps支援統一納管XGBoost、MLflow、TensorFlow、PyTorch、Scikit-learn等多種訓練框架的模型,以及Sophon Base中通過可視化建模和編程式建模訓練得到的模型。按模型推理邏輯,圖形化搭建服務推理圖,並統一應用模型文件。
▼
,時長00:24
2、快速配置資源參數,支援灰度發布
平台支援快速配置CPU、記憶體、GPU等服務資源參數,並將推理圖打包為服務鏡像,發布為在線服務,且可配置服務彈性伸縮策略。服務部署支援灰度發布,可根據實際需要靈活配置流量分配比例。
▼
,時長00:33
3、服務上線後的測試
對於已發布上線的模型服務,通過API介面對接上游業務系統數據,實現模型實時預測。
▼
,時長00:15
4、服務監控(查看運行狀態、訪問量、響應時間、訪問記錄等)
平台支援運維人員統一監控模型運行狀態,控制生產環境風險,並多維度評估模型預測效果,為持續迭代模型提供參考。
▼
,時長00:09
5、自動生成模型性能評估報告(支援A/B test對比報告)
支援模型性能評估報告查看、一鍵下載等功能,並支援選擇多個模型進行A/B test對比報告快速生成,幫助決策者對模型優劣進行基於量化性能指標的決策。
▼
,時長00:33
6、模型服務審計功能
支援以單個服務維度查看的模型服務運行狀態的審計功能。
▼
,時長00:13
**模型資產方面,**Sophon MLOps提供了用戶完整的統計大屏,對於現有模型數量、運行狀態、服務推理、模型評估、操作審計、節點情況一目了然。企業所有的AI相關的模型資產均可匯聚到MLOps進行統一的納管、運維、監控和應用,真正做到了AI維度上的打通。
圖4:MLOps用戶大屏
**雲原生方面,**Sophon MLOps基於雲原生設計,提供容器雲、微服務的架構,方便用戶對服務/應用進行自動、快速部署和調度,對集群進行方便的運維和安全管控。
**流程管理方面,**由於Sophon MLOps支援從數據集到模型開發、模型訓練到模型上線的全過程,所有角色進行的逐一環節操作在平台上均有記錄留存。一旦模型上線之後出現問題,可以根據模型服務回溯到模型版本和模型訓練的過程到訓練數據集,可以實現「發現問題,快速追溯」。
**兼容性方面,**Sophon MLOps提供了強大的兼容性和可擴展性,其AI能力在未來會不斷延伸。Sophon MLOps兼容最新的開源演算法框架、平台及基礎設施,並與TDH、Sophon Base、Slipstream(數據實時接入)、FIDE(實時智慧決策)高度兼容。數據類型方面,除了結構化數據建模之外,還支援圖譜分析及電腦視覺等延伸功能。用戶無需擔心一旦有新的開源計算框架或運行環境出現,現有平台不支援不兼容等問題。
圖5:Sophon MLOps功能架構
**Sophon MLOps打通了AI的全生命周期,為企業的各類用戶角色搭建了統一的AI協作平台。**對於企業而言,MLOps規模化集成管理了多源異構的機器學習模型,並提供高效且保障隱私安全的模型推理、監控預警及性能評估服務;對用戶而言,能感受到操作上的快捷,AI應用與部署更是如虎添翼。
未來,MLOps將繼續迭代更加豐富的功能,賦能企業AI更快、更好地落地。