騰訊優圖ncnn新版本適配國產CPU,最高速度提升70倍

圖片

隨著自主資訊技術創新應用的持續推進,國產PC、國產OS和軟硬體設備日趨成熟。為了更好的助力國產CPU在AI軟體生態從「可用」到「好用」, 作為騰訊優圖實驗室推出的首個高性能神經網路前向計算開源框架,ncnn近期在國產CPU龍芯和D1上進行了較為全面的適配和性能優化,ncnn攜手龍芯和全志科技,共同打通了AI應用和國產CPU硬體間的壁壘。

龍芯

是中國科學院計算所自主研發的通用CPU,採用自主LoongISA指令系統,兼容MIPS指令

D1

是全志科技首款基於RISC-V指令集的晶片,集成了阿里平頭哥64位C906核心,支援RVV

本次ncnn更新的20210720版本,完成了risc-v與mips架構cpu的適配,並利用risc-v vector與mips msa矢量加速擴展指令集,優化了絕大多數常用運算元的性能。在ncnn附帶的benchmark測試中,ncnn在龍芯CPU上速度提升最高18.64倍,在D1上速度提升最高70倍,滿足了AI端側推理部署的基本需求。

圖片

ncnn在龍芯CPU上測試數據,速度最高提升18.64倍

圖片

ncnn在全志科技D1上測試數據,速度最高提升70倍

圖片

龍芯2k派開發板上使用ncnn部署yolov5檢測演算法效果

圖片

全志D1開發板上使用ncnn部署nanodet檢測演算法效果

ncnn 20210720版本的其他更新

  • 支援 x86 avx-only cpu 優化加速

  • 數學函數 log/exp/tanh arm 優化

  • 提升 ncnn 量化工具的多執行緒效率

  • 修復某些手機gpu推理的記憶體泄漏和其他bugfix等等

  • 支援龍芯自主指令集架構loongarch

 測試平台-1

龍芯2K1000,2執行緒,mips架構,開啟msa

圖片

ncnn在龍芯CPU上適配測試數據

圖片

 測試平台-2

全志D1,1執行緒,risc-v架構,開啟v擴展

圖片

ncnn在全志科技D1適配測試數據

圖片

最後,歡迎大家訪問ncnn項目主頁,閱讀Readme加入ncnn技術交流QQ群,與一線工程師和眾多技術大佬溝通交流。

詳情見下:

ncnn 20210720版本下載地址或點擊閱讀原文

(linux/windows/macos/android/ios/webassembly,cpu+gpu)

//github.com/Tencent/ncnn/releases/tag/20210720

ncnn開源項目訪問地址

//github.com/Tencent/ncnn