腾讯优图ncnn新版本适配国产CPU,最高速度提升70倍
随着自主信息技术创新应用的持续推进,国产PC、国产OS和软硬件设备日趋成熟。为了更好的助力国产CPU在AI软件生态从“可用”到“好用”, 作为腾讯优图实验室推出的首个高性能神经网络前向计算开源框架,ncnn近期在国产CPU龙芯和D1上进行了较为全面的适配和性能优化,ncnn携手龙芯和全志科技,共同打通了AI应用和国产CPU硬件间的壁垒。
龙芯
是中国科学院计算所自主研发的通用CPU,采用自主LoongISA指令系统,兼容MIPS指令
D1
是全志科技首款基于RISC-V指令集的芯片,集成了阿里平头哥64位C906核心,支持RVV
本次ncnn更新的20210720版本,完成了risc-v与mips架构cpu的适配,并利用risc-v vector与mips msa矢量加速扩展指令集,优化了绝大多数常用算子的性能。在ncnn附带的benchmark测试中,ncnn在龙芯CPU上速度提升最高18.64倍,在D1上速度提升最高70倍,满足了AI端侧推理部署的基本需求。

ncnn在龙芯CPU上测试数据,速度最高提升18.64倍

ncnn在全志科技D1上测试数据,速度最高提升70倍

龙芯2k派开发板上使用ncnn部署yolov5检测算法效果

全志D1开发板上使用ncnn部署nanodet检测算法效果
ncnn 20210720版本的其他更新
-
支持 x86 avx-only cpu 优化加速
-
数学函数 log/exp/tanh arm 优化
-
提升 ncnn 量化工具的多线程效率
-
修复某些手机gpu推理的内存泄漏和其他bugfix等等
-
支持龙芯自主指令集架构loongarch
测试平台-1
龙芯2K1000,2线程,mips架构,开启msa

ncnn在龙芯CPU上适配测试数据

测试平台-2
全志D1,1线程,risc-v架构,开启v扩展

ncnn在全志科技D1适配测试数据

最后,欢迎大家访问ncnn项目主页,阅读Readme加入ncnn技术交流QQ群,与一线工程师和众多技术大佬沟通交流。
详情见下:
ncnn 20210720版本下载地址或点击阅读原文
(linux/windows/macos/android/ios/webassembly,cpu+gpu)
//github.com/Tencent/ncnn/releases/tag/20210720
ncnn开源项目访问地址
//github.com/Tencent/ncnn