20+移動端硬體，Int8極速推理，端側推理引擎Paddle Lite 2.0 正式發布

2019 年 11 月 11 日
筆記

機器之心發布

機器之心編輯部

今年 8 月，飛槳（PaddlePaddle）對外發布面向終端和邊緣設備的端側推理引擎 Paddle Lite Beta 版。經過近兩個多月的迭代和發展，2019 Wave Summit+ 深度學習開發者峰會上 Paddle Lite 2.0 正式版發布。

Paddle Lite 的 Github 鏈接：

https://github.com/PaddlePaddle/Paddle-Lite

Paddle Lite 致力於提供一套功能完整、易用、高性能的端側推理引擎，方便廣大開發者將應用部署到任何端側設備之上。對比最初的 beta 版本，正式版在編譯、文檔、性能、硬體支援、平台支援等方面都有了較大的改進提升。

而飛槳團隊也透露，將在今年內繼續推進若干小版本的升級，並期待和歡迎開發者加入社區並給出回饋。

在 AI 技術落地中，推理階段與實際應用相關聯，直接關係到用戶的體驗，是非常具有挑戰性的一環。

圖 1 .典型端側 AI 應用部署場景

Paddle Lite 是飛槳產品棧中用於端側高性能輕量化 AI 應用部署的推理引擎，核心用途是將訓練出的模型在不同硬體平台場景下快速部署，根據輸入數據，執行預測推理得到計算結果，支援實際的業務應用。

圖 2 . Paddle Lite 功能定位

Paddle Lite 自 Beta 版發布以來，在如下核心功能上進行升級：

多框架支援：原生支援 PaddlePaddle 的模型，同時通過 X2Paddle 工具，提供對 TensorFlow，PyTorch 和 ONNX 模型格式的更充分的支援；
多硬體支援：除了 ARM CPU、移動端 GPU、華為 NPU，新增支援 Nvidia GPU 和 X86 CPU；
更好的性能：更新 benchmark，提升了在 ARM CPU 上尤其是 int8 的性能；
更加完備的功能：支援 python API，優化編譯流程，新增預測庫極致裁剪等功能；
更加完善的文檔和 demo：提供完善的文檔和多平台的 demo，包括Android、iOS 和樹莓派等。

多框架支援

Paddle Lite 不僅可以支援飛槳格式模型，也支援 Caffe, TensorFlow, ONNX 等第三方格式的模型，詳情可以參考 X2Paddle。官方已經驗證如下主流模型的適配情況：

除了上述主流模型以外，ARM CPU FP32 新增如下 3 個模型支援：

-transformer

-facebox

-blazeface

ARM CPU INT8 量化預測支援如下模型：

-shufflenetv2

-mobilenet-ssd

-vgg16

-googlenet

-mobilenetv1

-mobilenetv2

-Resnet50

多硬體支援

在 v2.0 版本中，Paddle Lite 新增 Nvidia GPU 和 X86 CPU 兩大類硬體支援。

Nvidia GPU 方面，為了充分利用 GPU 的高性能，Paddle Lite 用 CUDA 相關軟體棧開發了對應的 Kernel，支援 Nvidia 多類 GPU 硬體，比如伺服器端的 P4、T4，以及嵌入式端的 Jetson TX2、TX1、Nano 等。

目前 CUDA GPU 支援如下三種模型：

-Yolov3

-Alexnet

-Unet

在 X86 CPU 方面，Paddle Lite 增加了 MKL 相關 Kernel，目前能夠驅動 inception v4, googlenet, resnet50 等 3 個模型的高效執行，相應運算元對其他多數 CV 類模型具有普適性。

更好的性能

ARM CPU (v7,v8) 上 float32 和 int8 兩種計算模式的預測性能均得到提升（見圖 3，圖 4），詳情可以參考最新的 Benchmark：

鏈接：https://paddlepaddle.github.io/Paddle-Lite/v2.0.0/benchmark/

圖3

圖4

測試條件：batchsize=1，單執行緒

更加完備的功能

支援 python API

為了簡化 ARM Linux 相關硬體上的預測部署，Paddle Lite 增加了 Python API 的預測介面，目前在樹莓派和 Jetson TX2 等卡上做了應用驗證。

優化編譯流程

Paddle Lite 支援兩種模式的編譯：

tiny_publish：用於對部署體積有嚴格要求的平台，對應 MobileConfig 預測介面。
full_publish：用於對部署體積無要求的平台，使用簡便，對應 CxxConfig 預測介面。

編譯方面，除了 docker 以外，新增了 Linux（推薦 Ubuntu）、Mac 等編譯平台的支援，並且修復了編譯（full_publish）時下載 git submodule 緩慢的問題。

在統一的編譯腳本下，目前支援：

-android ARM CPU, GPU

-iOS

-X86

-NV GPU/CUDA

-Huawei NPU

-ARM Linux

等硬體平台的預測庫編譯。

預測庫極致裁剪

Paddle Lite 對現有移動端預測庫進行了進一步壓縮，ARM V8 so 從 1.4M 降到 1.3M；此外，還發布了根據單個模型做訂製裁剪的功能，即生成一個只包含該模型必需運算元的預測庫，效果如下圖所示：

圖5

更加完善的文檔和 DEMO

完善文檔內容，主要包括

增加支援硬體的列表，參考： https://paddlepaddle.github.io/Paddle-Lite/v2.0.0/support_hardware/
增加根據模型裁剪運算元的方法，參考： https://paddlepaddle.github.io/Paddle-Lite/v2.0.0/library_tailoring/
更新最新 Benchmark，參考： https://paddlepaddle.github.io/Paddle-Lite/v2.0.0/benchmark/

為了實際地展示 Paddle Lite 的部署能力，Paddle Lite 增加了 Paddle-Lite-Demo （https://github.com/PaddlePaddle/Paddle-Lite-Demo）GitHub 官方 DEMO 庫，目前包含

-Android ARM CPU

-Android Huawei NPU

-iOS ARM CPU

-ARM Linux 樹莓派

等多種平台，包括分類、檢測等模型的功能演示。

以 ARM Linux 樹莓派為例，Paddle Lite 驅動樹莓派 3B 調用攝影機進行識別任務，整體效果如圖 6 所示：

圖 6

詳情請參考樹莓派攝影機的購買、安裝、配置與驗證（以樹莓派 3B 為例，https://github.com/PaddlePaddle/Paddle-Lite-Demo/blob/master/PaddleLite-armlinux-demo/enable-camera-on-raspberry-pi.md）。

如果您想了解更多關於 Paddle Lite 的相關內容，請參閱以下相關鏈接。

參考鏈接：

1.Paddle Lite 的 Github 鏈接：

https://github.com/PaddlePaddle/Paddle-Lite

2.Paddle Lite 的文檔鏈接：

https://paddlepaddle.github.io/Paddle-Lite/

3.Paddle Lite Demo 的鏈接：

https://github.com/PaddlePaddle/Paddle-Lite-Demo

4.PaddlePaddle 的 Github 鏈接：

https://github.com/paddlepaddle

本文為機器之心發布，轉載請聯繫本公眾號獲得授權。

20+移動端硬體，Int8極速推理，端側推理引擎Paddle Lite 2.0 正式發布

VirMach 便宜 VPS

QNews

20+移動端硬體，Int8極速推理，端側推理引擎Paddle Lite 2.0 正式發布

分享此文：

Related Posts

CF995E Number Clicker (雙向BFS)

死磕 java執行緒系列之執行緒池深入解析——體系結構

MIT黑科技：無需視覺輸入，立體聲音頻+攝像機元數據即可實現移動車輛定位

特徵工程系列：時間特徵構造以及時間序列特徵構造

VirMach 便宜 VPS

QNews

熱門搜尋