全球首家!星環科技通過3TB TPCx-AI測試,實現大數據與AI的完美融合

2022年8月2日, TPC事務處理性能委員會官網正式發布了星環科技在3TB數據量下的TPCx-AI測試結果,Sophon Discover 3.0以AIUCpm 2,740.05分的優異表現,成為該數據量下全球首個成功通過測試及官方審計的產品,也是截至目前該AI基準測試最大的數據量級。

TPCx-AI,貼合實際人工智慧使用場景的Benchmark

TPC(Transaction Processing Performance Council)全稱為事務處理性能委員會,是全球最知名的數據管理系統測評基準標準化組織。TPCx-AI是TPC組織定義的一種端到端AI基準測試標準,用于衡量機器學習或數據科學平台的在AI端到端流水線中的性能。該AI基準測試對於數據處理量級、運行便捷性、性價比、廣泛適應性、ML&DL功能均做出要求,並需通過官方審計。TPCx-AI標準要求測試廠商擁有人工智慧領域的技術能力,還需要提供完整的軟硬體解決方案和一站式的人工智慧平台,並在AI前沿領域具有突破性研究。

TPCx-AI測試標準共提供10個機器學習和深度學習測試用例,涵蓋客戶分類、客戶對話轉錄、銷售預測、垃圾郵件檢測、價格預測、分類和欺詐檢測等應用場景。每個用例都包含:數據生成、數據管理、模型訓練、模型評分和模型推理階段。區別於其他AI基準,TPCx-AI使用多模態的數據集(包含結構化和非結構化的影像、音頻等多模態數據格式),並可擴展到TB級別;數據管理階段包含數據清洗、數據探索和預處理等過程,實際模擬了商業生產環境的數據處理流程。最後使用數據集進行模型訓練、模型推理和模型評估。

AI測試用例的端到端流程

秉持研發創新技術初心,星環科技朝TPCx-AI進發

作為長期從事大數據和人工智慧基礎平台研發的企業,一方面星環科技保持開放的心態與業界共同進步,因此有責任和TPC一起,完善TPCx-AI這項在接近企業生產環境中的人工智慧(含機器學習)產品和方案的基準測試,為機器學習平台行業提供基準線;另一方面,星環科技始終追求技術自主性和先進性,不斷檢驗自身產品體系和框架在當前業界主流人工智慧場景中的線性擴展性、高性能、高性價比和廣泛適應性;此外,TPCx-AI作為首個端到端大數據+人工智慧的數據科學Benchmark,有對場景理解、大數據技術、AI科學與技術的多重挑戰,這和公司追求的「把自主研發的領先創新技術賦能全世界各行各業,促進社會可持續發展,通過科技讓人類的生活更美好」的宗旨也是高度契合的。

「複雜計算環境」、「AI全流程」、「多模態」——大數據與AI融合的基準測試所帶來的一系列挑戰

複雜的計算環境

TPCx-AI是標準的大數據和AI軟體異構混合計算環境,其中大數據相關的安裝軟體包括:Hadoop、Spark、Yarn、HDFS、Horovod等,AI相關的安裝軟體包括:Tensorflow、Keras、Sklearn、XGBoost、Pandas等;同時也是標準的硬體異構混合計算環境,同時包含CPU加速和GPU加速,以及單機加速和分散式集群加速。一方面較為考驗平台對於大數據和AI異構混合計算環境的適應性,另一方面對於不同種類硬體的異構運算,也提出了能力要求。

AI全流程的測試場景

TPCx-AI的測試場景包含數據生成、數據管理、模型訓練、模型推理、模型評估、吞吐量並發測試,包含了端到端的數據科學全流程,需要平台具備AI全生命周期的能力。

豐富的測試用例

TPCx-AI共提供10個測試用例,包含7個機器學習模型和3個深度學習模型,模型涉及有監督學習和無監督學習。其中,用例9使用的是混合模型(模型結構為:embedding神經網路+LogisticRegression)。對於平台而言,需要解決性能優化瓶頸,並且有效處理CPU/GPU密集型計算、IO密集型計算、記憶體密集型計算等多樣的計算類型。

多模態的數據類型

區別於其他AI基準,TPCx-AI使用的是多模態的數據集,包含結構化和非結構化(影像、音頻等)多種數據格式,對於平台多源異構的數據處理及分析能力提出了要求。該測試集可擴展到TB級別,是將大數據與人工智慧技術進行融合測試的場景。

「更快」、「更少」、「更極致」——不斷探索軟體的可能性

為了應對上述挑戰,星環科技對軟體做了大量的優化工作,從而實現了記憶體佔用更少、計算更快、產品更加極致的目標,具體優化工作如下:

  • Spark參數優化/ UseCase參數優化:深入了解每個UseCase的邏輯,分析執行細節,確定優化方向;通過監控系統資源使用情況以及監控JVM中GC情況,對每個UseCase的Spark參數進行優化。針對不同UseCase的性能瓶頸:計算、IO、記憶體、通訊,在TPCx-AI官方要求精度範圍內以及可修改參數範圍內,對UseCase自帶參數進行調試最優化;

  • 結合RDMA、GPUDirect基礎技術嘗試提升節點與集群的整體計算和通訊性能;

  • 對模型訓練及推理過程嘗試編譯級別優化,充分發揮CPU向量計算、GPU並行計算性能;

  • 使用混精、剪枝、蒸餾等技術嘗試優化模型,記憶體佔用更少,計算更快。

一款自主研發的數據科學平台,終在國際基準測試中獲亮眼表現

至此,星環科技正式向TPCx-AI發起挑戰。歷經前後半年時間,星環科技的數據科學平台Sophon Discover分別進行了TPCx-AI scale factors為100GB、1TB、3TB的測試。其中,1TB數據的性能表現為1696,比4月TTA發布的性能結果高出超出491分,比8月DELL發布性能結果依然超出218分。當然,我們不滿足於1TB數據的性能測試結果,向著3TB數據規模發起挑戰,最終成為全球首個通過TPCx-AI scale factors為3000基準測試及官方審計的廠商,且性能達到了2740.05。與同數據量下的其他結果相比,Sophon Discover每節點可貢獻456.68的性能得分,優於CDP每節點貢獻390.19的性能得分。

從公布的測試結果不難看出,Sophon不論從數據量級、性能表現、性價比及自主性方面均達到了最優的成績。

值得一提的是,在所有公布的測試結果當中,只有星環科技使用的是完全自主研發的國產數據科學平台。除了可以保障用戶的平台使用安全外,此次基於數據科學平台Sophon Discover 3.0的測試結果,也是真正意義上可實際商用的AI測試結果,其配置符合企業實際落地AI應用時,使用分散式集群的商用配置。

建言獻策,為國際基準測試貢獻中國技術力量

在進行產品測試的過程中,我們也發現了多處BUG並幫助TPC完善了TPCx-AI套件的程式碼邏輯,使得測試環境更加穩定。此外,星環科技向TPC組織提出了TPCx-AI@Sophon測試方案,最終該方案通過了委員會審核,成為被官方認可的國際基準測試框架。今後,其他廠商可以在他們的硬體上面運行基於Sophon 的TPCx-AI測試套件,用于衡量硬體的性能。

至此,星環科技也成為了TPCx-AI的技術貢獻者之一,為國際基準測試貢獻了來自中國的技術力量。

作為全球首家通過3TB TPCx-AI國際基準測試及官方審計的企業,星環科技為企業AI應用的商用落地探索出了一條可行道路。未來,星環科技也將秉持「自主原創,領先一代」的技術發展策略,為用戶提供更強性能和更高性價比的人工智慧框架和平台,在數字化轉型之路上,以技術之力幫助用戶解決AI落地難題,更深入地洞察數據價值。

Tags: