米爾嵌入式i.MX6ul入門級闆卡的神經網絡架構ncnn移植與測試

本篇測評由電子發燒友的優秀測評者“ALSET”提供。

電子發燒友網釋出了一款試用産品：米爾 MYD-Y6ULX-V2 開發闆，基于 NXP i.MX6UL/i.MX6UL L處理器，該開發闆被米爾稱之為經典王牌産品。本次測試目标是在此開發闆上進行神經網絡架構ncnn的移植與測試開發，測試ncnn在此開發闆上的性能與應用測試。

01.

什麼是ncnn

ncnn 是騰訊優圖推出的在手機端極緻優化的高性能神經網絡前向計算架構。也能夠在移動裝置上的高性能神經網絡前向計算架構。ncnn 從設計之初深刻考慮移動端的部署和使用。無第三方依賴，跨平台，其中手機端 cpu的速度快于目前所有已知的開源架構。

基于ncnn，能夠将深度學習算法輕松移植到手機端和移動裝置上高效執行，開發人工智能應用。以騰訊内部應用為例，ncnn目前已在QQ，Qzone，微信，天天P圖等上得到應用。

ncnn支援大部分常用的CNN 網絡：

Classical CNN: VGG AlexNetGoogleNet Inception …

Practical CNN: ResNetDenseNet SENet FPN …

Light-weight CNN:SqueezeNet MobileNetV1/V2/V3 ShuffleNetV1/V2 MNasNet …

Detection: MTCNNfacedetection …

Detection: VGG-SSDMobileNet-SSD SqueezeNet-SSD MobileNetV2-SSDLite …

Detection: Faster-RCNNR-FCN …

Detection: YOLOV2 YOLOV3MobileNet-YOLOV3 …

Segmentation: FCN PSPNetUNet …

騰訊優圖實驗室是主要研究計算機視覺技術，ncnn的許多應用方向也都在圖像方面，如人像自動美顔，照片風格化，超分辨率，物體識别。

騰訊優圖ncnn提供的資料顯示：對比目前已知的同類架構，ncnn是cpu架構中最快的，安裝包體積最小，跨平台相容性中也是最好的。以蘋果主推的CoreML為例，CoreML是蘋果主推的 iOS gpu計算架構，速度非常快，但僅支援 iOS11以上的 iphone手機閱聽人太狹窄。非開源也導緻開發者無法自主擴充功能。

02.

ncnn功能簡介

ncnn支援卷積神經網絡，支援多輸入和多分支結構，可計算部分分支無任何第三方庫依賴，不依賴 BLAS/NNPACK 等計算架構純 C++ 實作，跨平台，支援 android ios 等ARM NEON 彙編級良心優化，計算速度極快精細的記憶體管理和資料結構設計，記憶體占用極低支援多核并行計算加速，ARM big.LITTLE cpu 排程優化。

支援基于全新低消耗的 vulkan api GPU 加速整體庫體積小于 700K，并可輕松精簡到小于 300K可擴充的模型設計，支援 8bit 量化和半精度浮點存儲，可導入 caffe/pytorch/mxnet/onnx 模型支援直接記憶體零拷貝引用加載網絡模型可注冊自定義層實作并擴充。

ncnn與同類架構對比

03.

在i.MX 6ull上移植編譯ncnn

工程位址：

githubhttps://github.com/Tencent/ncnn 從工程的readme檔案看，該工程已經支援很多嵌入式CPU的架構，其中就有arm 32位版本。

既然支援arm32位，那麼ixm6ull處理器也應該支援，即着手編譯MYD-Y6ULX-V2開發闆上的版本。

1.從github 上拉取ncnn源碼

在主機上執行指令：

Sudo git clone https://github.com/Tencent/ncnn.git

可見是一個 cmake工程，那麼嘗試cmake 編譯。

2.初次使用camke編譯

先進入ixml6ull的SDK下，切換到交叉編譯環境，然後建立 build 目錄，進入build目錄下，執行cmake指令

cmake ../

從輸出資訊上看 cmake失敗，檢視cmake 日志，發現錯誤原因是cmake在生成開發闆的makefile檔案時，需要指定使用的編譯工具鍊。

3.添加imx6ull開發闆的編譯配置

根據腳本的過程，在toolchains目錄下，有很多其它開發闆的編譯配置檔案，參照其它開發闆的配置檔案，添加一個該開發闆的配置檔案。

檔案名：arm-poky-linux-gnueabi.cmake

内容如下：

set(CMAKE_SYSTEM_NAME Linux)
set(CMAKE_SYSTEM_PROCESSOR arm)
set(CMAKE_C_COMPILER "arm-poky-linux-gnueabi-gcc")
set(CMAKE_CXX_COMPILER "arm-poky-linux-gnueabi-g++")
set(CMAKE_FIND_ROOT_PATH_MODE_PROGRAM NEVER)
set(CMAKE_FIND_ROOT_PATH_MODE_LIBRARY ONLY)
set(CMAKE_FIND_ROOT_PATH_MODE_INCLUDE ONLY)

set(CMAKE_C_FLAGS "-march=armv7-a -mfloat-abi=hard -mfpu=neon --sysroot=/home/lutherluo/workspace/fsl-imx-fb/5.10-gatesgarth/sysroots/cortexa7t2hf-neon-poky-linux-gnueabi")

set(CMAKE_CXX_FLAGS "-march=armv7-a -mfloat-abi=hard -mfpu=neon --sysroot=/home/lutherluo/workspace/fsl-imx-fb/5.10-gatesgarth/sysroots/cortexa7t2hf-neon-poky-linux-gnueabi")

# cache flags
set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS}" CACHE STRING "c flags")
set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS}" CACHE STRING "c++ flags")

4.再使用cmake生成編譯檔案

添加完該開發闆的編譯工具鍊後，就可以使用cmake來生成編譯所需的makefile檔案了。在cmake時，可以指定除了編譯ncnn庫外，還可以編譯ncnn例子程式。指令如下：

cmake-DCMAKE_BUILD_TYPE=Release -DNCNN_SIMPLEOCV=ON-DCMAKE_TOOLCHAIN_FILE=../toolchains/arm-poky-linux-gnueabi.cmake-DNCNN_BUILD_EXAMPLES=ON ..

檢視目錄下，已經順利地生成了 Makefile檔案。

5.使用make編譯檔案

然後可以正式編譯ncnn庫和測試樣例程式了。

直接執行

make –j4

就開始愉快地編譯了。

編譯libncnn庫檔案成功，會繼續自動編譯 examples 下的例子檔案。

大約10多分鐘，順利地全部編譯完成。

在編譯測試用例時，會出現庫格式錯誤的提示，此時需要設定一下交叉編譯環境下的庫歸檔工具，系統預設使用的是arm-poky-linux-gnueabi-ar 工具，這個工具産生的 .a檔案有問題，經過測試使用 arm-poky-linux-gnueabi-gcc-ar 即可。

隻需要在執行切換交叉環境腳本後，再單獨執行一下以下指令即可修改該問題：

export ar=arm-poky-linux-gnueabi-gcc-ar

再進行編譯即可。

6.檢視編譯結果

編譯完成後，在build目錄下，可以看到 benchmark 目錄，該目錄下就是ncnn的基準測試工具，可以看到目标闆執行檔案已經編譯出來。

再進入到 build/example 下，可以看到所有例程也編譯出來了。

04.

闆上運作測試ncnn

編譯完成把可執行檔案與模型檔案複制到開發闆裡進行測試。

把 build/benchmark 下的benchmark 複制到開發闆/home/root/ncnn 目錄下，同時把工程根目錄下的benchmark 目錄下所有檔案也複制到開發闆 /home/root/ncnn目錄下，

然後就可以執行 benchmark 執行檔案來測試開發闆的人工神經網絡的計算能力。

先把開發環境下目标檔案系統arm目錄下/usr/lib下的libgomp.so.1檔案複制到開發闆的/usr/lib下，這個檔案是并行計算庫，ncnn編譯時用到了這個庫，這個庫在多核處理器上能夠支援執行并行計算。然後再在本開發闆執行benchmark，執行輸出結果如下圖：

可見大部分的模型能夠跑通了，有部分模型運作出現異常。

從抛出的分值可以評估該開發闆的神經網絡推理計算能力了。

這個分值是一個模型推理一次的耗時，是以數值越小意味着算力越強。考慮到這個開發闆是一個arm v7入門級的開發闆，這樣的性能已經超乎預料了。

05.

測試基于ncnn的應用

這裡在MYD-Y6ULX-V2開發闆上測試ncnn的應用例子，這裡就用ncnn下的例程來做測試，在上面編譯完example後，在build目錄下會産生example的目标闆的可執行檔案。編譯出來的例子程式如下,把他們全部傳到開發闆上。

需要注意的是，除了ncnn的應用執行檔案，在這些例子執行的時候，還需要模型和測試的資源檔案，而這些檔案體積都比較大，是以不能傳送到開發闆的系統目錄上，需要單獨存在擴充的存儲空間上。

經過觀察闆上的檔案系統，發現有3.1G的空間沒有使用，此時可以使用fdisk 來格式化該空間，格式化成 ext4 格式，重新開機闆子後，就可以看到這部分空間了，然後把ncnn的所有測試執行檔案和資源檔案傳到該目錄下，這樣就夠用了。

在闆上執行各個測試例子，會提示缺少相關模型檔案和參數檔案，這些模型和參數檔案在這個github上面，下載下傳相應的檔案到目前目錄下就可以。

https://github.com/nihui/ncnn-assets/tree/master/models

1. 測試圖檔分類器

準備被測試圖檔,test,jpg ,傳到上ncnn目前目錄下

并且下載下傳好 squeezenet_v1.1.param和 squeezenet_v1.1.bin 檔案到 ncnn目前目錄下，然後執行一下指令：

./squeezenet./test.jpg

很快就輸出識别結果，輸出結果如下圖

輸出結果前面的編号和分類号，具體可以參考：

mageNet20121000分類名稱和編号

https://zhuanlan.zhihu.com/p/315368462

但不知本測試模型所用分類的版本是否和這個一緻。

2 測試圖檔内容多目辨別别

測試圖檔内容識别，先用上面的圖，再使用 squeezenetssd 來執行。執行前先下載下傳 squeezenet_ssd_voc.bin和 squeezenet_ssd_voc.param 到闆上ncnn目前目錄下，然後執行：

./squeezenetssd./test.jpg

大約3秒左右輸出結果如圖：

輸出的分類編号，可見代碼的定義：

同時輸出了識别結果圖：

再測試另外一張圖：

執行結果如下：

輸出識别結果圖：

上面的識别，因為輸出的第二個目标被第三個目标遮蓋，第二個識别為“Dog”，是以識别準确度還是比較高的。

再測試了一張圖：

輸出：

識别效果也比較理想。

06.

ncnn移植測試總結

經過在MYD-Y6ULX-V2開發闆上，進行這次的ncnn移植測試，總體非常順利，在移植中隻需要針對開發闆的編譯器，修改添加相應的編譯腳本即可順利的編譯ncnn庫和所有例程。并不需要對代碼做任何改動或者調整，是以過程很快，短暫的時間就可以完成ncnn這樣一個神經網絡架構在本開發闆上運作起來。

對ncnn的benchmark的性能測試來看，因為本開發闆僅為arm v7單核處理器，處于入門級的一款開發闆，能跑出這樣的成績已經出乎意料。

在對實際圖像分類和圖像内容識别測試中，其中圖像分類僅百十毫秒就出結果，對多目辨別别單張圖在2秒左右，這對一些靜态的環境下已經能夠達到業務使用的需求了，再綜合其硬體性能，可見效能比是非常高的。同時工程裡還帶有一些各種其它架構模型轉化ncnn的工具，友善将其它模型轉化到ncnn上來使用，非常友善。

同時也測試出ncnn的良好的可移植性和對不同嵌入式硬體的支援較好，其它任何一個神經網絡架構恐怕無法在這樣一個系統上運作，是以也為這樣一個有效的國産開源神經網絡項目點贊。

米爾嵌入式i.MX6ul入門級闆卡的神經網絡架構ncnn移植與測試

繼續閱讀

科普：alphago是什麼

深度學習筆記——“Mastering the game of Go with deep neural networks and tree search”論文學習深度學習筆記——“Mastering the game of Go with deep neural networks and tree search”論文學習題目摘要引言

深度學習與圍棋：為AlphaGo訓練深度神經網絡13.1.1　AlphaGo的網絡架構13.1.2　AlphaGo棋盤編碼器13.1.3　訓練AlphaGo風格的政策網絡

蚪俠-遠端泛目錄[泛域名+泛目錄+泛内頁]-[代碼+漢字]幹擾-字型繁簡切換-蜘蛛欺騙-主動推送_鏡像版-V25版

深度學習的一些小記錄裡面有一部分是摘錄

自學記錄《深度學習500問》之深度學習基礎

問答機器人代碼封裝和對外提供接口代碼封裝和對外提供接口

數學模組化智能優化算法之神經網絡案例附Matlab代碼

突破！雙一流大學，首篇Nature！

PALM病理性近視預測 2021-07-04飛槳正常賽：PALM病理性近視預測 6月第3名方案一、賽題介紹

圖形處理單元(GPU)的演進

CogView: Mastering Text-to-Image Generation via Transformers翻譯摘要1.介紹2.方法3.Finetuning

深度學習之卷積01 卷積02 填充Padding03 步幅Stride04 卷積核的選擇05 多通道卷積參考

通俗了解查準率(precision)和查全率(recall)

人工智能如何有效地運用于自然語言處理

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案