騰訊優圖ncnn新版本適配國產CPU,最高速度提升70倍
隨着自主信息技術創新應用的持續推進,國產PC、國產OS和軟硬件設備日趨成熟。為了更好的助力國產CPU在AI軟件生態從「可用」到「好用」, 作為騰訊優圖實驗室推出的首個高性能神經網絡前向計算開源框架,ncnn近期在國產CPU龍芯和D1上進行了較為全面的適配和性能優化,ncnn攜手龍芯和全志科技,共同打通了AI應用和國產CPU硬件間的壁壘。
龍芯
是中國科學院計算所自主研發的通用CPU,採用自主LoongISA指令系統,兼容MIPS指令
D1
是全志科技首款基於RISC-V指令集的芯片,集成了阿里平頭哥64位C906核心,支持RVV
本次ncnn更新的20210720版本,完成了risc-v與mips架構cpu的適配,並利用risc-v vector與mips msa矢量加速擴展指令集,優化了絕大多數常用算子的性能。在ncnn附帶的benchmark測試中,ncnn在龍芯CPU上速度提升最高18.64倍,在D1上速度提升最高70倍,滿足了AI端側推理部署的基本需求。

ncnn在龍芯CPU上測試數據,速度最高提升18.64倍

ncnn在全志科技D1上測試數據,速度最高提升70倍

龍芯2k派開發板上使用ncnn部署yolov5檢測算法效果

全志D1開發板上使用ncnn部署nanodet檢測算法效果
ncnn 20210720版本的其他更新
-
支持 x86 avx-only cpu 優化加速
-
數學函數 log/exp/tanh arm 優化
-
提升 ncnn 量化工具的多線程效率
-
修復某些手機gpu推理的內存泄漏和其他bugfix等等
-
支持龍芯自主指令集架構loongarch
測試平台-1
龍芯2K1000,2線程,mips架構,開啟msa

ncnn在龍芯CPU上適配測試數據

測試平台-2
全志D1,1線程,risc-v架構,開啟v擴展

ncnn在全志科技D1適配測試數據

最後,歡迎大家訪問ncnn項目主頁,閱讀Readme加入ncnn技術交流QQ群,與一線工程師和眾多技術大佬溝通交流。
詳情見下:
ncnn 20210720版本下載地址或點擊閱讀原文
(linux/windows/macos/android/ios/webassembly,cpu+gpu)
//github.com/Tencent/ncnn/releases/tag/20210720
ncnn開源項目訪問地址
//github.com/Tencent/ncnn