騰訊優圖ncnn新版本適配國產CPU,最高速度提升70倍
隨著自主資訊技術創新應用的持續推進,國產PC、國產OS和軟硬體設備日趨成熟。為了更好的助力國產CPU在AI軟體生態從「可用」到「好用」, 作為騰訊優圖實驗室推出的首個高性能神經網路前向計算開源框架,ncnn近期在國產CPU龍芯和D1上進行了較為全面的適配和性能優化,ncnn攜手龍芯和全志科技,共同打通了AI應用和國產CPU硬體間的壁壘。
龍芯
是中國科學院計算所自主研發的通用CPU,採用自主LoongISA指令系統,兼容MIPS指令
D1
是全志科技首款基於RISC-V指令集的晶片,集成了阿里平頭哥64位C906核心,支援RVV
本次ncnn更新的20210720版本,完成了risc-v與mips架構cpu的適配,並利用risc-v vector與mips msa矢量加速擴展指令集,優化了絕大多數常用運算元的性能。在ncnn附帶的benchmark測試中,ncnn在龍芯CPU上速度提升最高18.64倍,在D1上速度提升最高70倍,滿足了AI端側推理部署的基本需求。
ncnn在龍芯CPU上測試數據,速度最高提升18.64倍
ncnn在全志科技D1上測試數據,速度最高提升70倍
龍芯2k派開發板上使用ncnn部署yolov5檢測演算法效果
全志D1開發板上使用ncnn部署nanodet檢測演算法效果
ncnn 20210720版本的其他更新
-
支援 x86 avx-only cpu 優化加速
-
數學函數 log/exp/tanh arm 優化
-
提升 ncnn 量化工具的多執行緒效率
-
修復某些手機gpu推理的記憶體泄漏和其他bugfix等等
-
支援龍芯自主指令集架構loongarch
測試平台-1
龍芯2K1000,2執行緒,mips架構,開啟msa
ncnn在龍芯CPU上適配測試數據
測試平台-2
全志D1,1執行緒,risc-v架構,開啟v擴展
ncnn在全志科技D1適配測試數據
最後,歡迎大家訪問ncnn項目主頁,閱讀Readme加入ncnn技術交流QQ群,與一線工程師和眾多技術大佬溝通交流。
詳情見下:
ncnn 20210720版本下載地址或點擊閱讀原文
(linux/windows/macos/android/ios/webassembly,cpu+gpu)
//github.com/Tencent/ncnn/releases/tag/20210720
ncnn開源項目訪問地址
//github.com/Tencent/ncnn