來源 | HaaS技術社群

物聯網技術不斷發展，已經從單純地強調連接配接，更多地強調多場景的支援。出現了越來越多帶有視覺能力的智能硬體，包括智能門鎖，智能貓眼，86智能面闆，帶屏智能中控，網絡攝像頭等。

這些智能裝置基本都會帶有攝像頭功能，作為“眼睛”。攝像頭采集了圖像資料後，會進行處理。處理流程可以抽象出視覺技術的資料處理流程首先是資料采集，然後是資料處理，最後是資料顯示。

圖像資料的采集

資料采集通過攝像頭完成。攝像頭的硬體主要包括ISP，sensor和鏡頭。Sensor負責采集圖像，ISP通過3A算法完成圖像的處理得到YUV格式的圖像資料。得到原始的圖像資料後，通過編碼技術獲得編碼後的圖像資料。視訊流使用H.264和H.265進行編碼，圖檔使用MJPEG進行編碼。編碼後的圖像資料由于體積更小，便于資料存儲和傳輸。編碼過程可以通過軟體完成，或者專用硬體完成。專門用于圖像處理的ISP晶片通常都具有硬體編解碼能力。帶有硬體編解碼能力能夠獲得更好地性能

圖像壓縮标準，可以分為視訊編碼和靜态圖像編碼。編碼技術是一種壓縮技術，将原始格式的圖像資料轉換成另外一種格式，便于網絡傳輸和存儲。目前使用頻率最高的視訊編碼技術是H.264和H.265，靜态圖像編碼技術是MJPEG。

H.264和H.265是有ITU(國際電傳視訊聯盟)主導，用于網絡視訊傳輸的編碼技術。主要用于實時視訊通信領域。如今廣泛使用的視訊壓縮标準包括H.264和H.265。H.265具有更靈活的編碼機制(包括編碼單元，預測單元和轉換機關)，相比于H.264支援更高的分辨率，更高的壓縮率和更高品質的編碼标準。同樣品質的視訊編碼能夠節省40%到50%的碼流。

MJPEG是一種基于靜态圖像壓縮技術JPEG發展的動态圖像壓縮技術。MJPEG的主要缺點是壓縮率相比于H.264和H.265要低。MJPEG每一幀都是JPEG編碼，不考慮視訊流幀之間的變化，隻對每一幀單獨進行編碼。這個特點使得MJPEG的壓縮率低，同時使得它适合于靜态圖像資料的采集。

圖像資料的處理

圖像資料采集和編碼完成後，主要會有兩種處理，一種是使用流式媒體協定推送圖像資料，另外一種是使用AI技術對資料進行深度學習和分析。

流媒體協定主要包括了RTSP，RTMP，還有P2P協定。這些協定将圖像資料在智能硬體，手機和雲端之間推送，實作圖像資料的預覽，雲端存儲等。

RTMP(Real Time Messaging Protocol)是由Adobe公司提出的私有流媒體協定，基于TCP協定實作的實時消息傳輸協定，主要用在了視訊直播等場景。RTMP通常維護一個TCP連接配接，用于傳輸指令和資料。它的主要特點是時延低。目前由于RTMP延遲低，易用，并且和常用富媒體工具的結合，視訊直播和CDN推拉流基本都是采用RTMP。

RTSP(Real Time Streaming Protocol)是一種流媒體協定。通常維護2-3個TCP連接配接，分别傳輸資料和指令。它主要定義了控制指令，包括了setup，play，pause，teardown等。資料傳輸直接依賴于TCP或者UDP，也有基于HTTP的RTSP over HTTP。由于RTSP并沒有被Flash支援，在浏覽器中使用需要安裝插件，使用上不如RTMP友善。同時由于NAT的廣泛使用，導緻使用UDP傳輸的視訊資料會被block。由于上述一些原因，雖然RTSP的實時性相比于RTMP要好一些，RTSP的流行程度并沒有RTMP那麼高。

P2P技術是點對點的穿透技術，可以實作攝像頭和手機之間點到點的視訊拉流，優勢是節省伺服器帶寬，降低成本。實際部署網絡中，無法實作具有IP位址之間直接通信的主要原因是大多數主機的IP位址都是在防火牆或者NAT之後，隻有少部分主機能夠直接接入Internet。是以需要網絡穿透技術完成智能裝置之間的直連。網絡穿透技術主要有STUN(Simple Traversal of User Datagram Protocol Through Network Address Translation)，TURN(Traversal Using Relays around NAT)和ICE(Interactive Connectivity Establishment)。目前，由于網絡的複雜性，P2P的穿透率大約是50%。

AI人工智能，完成圖像資料采集和傳輸後，圖像資料的後向處理主要是圖像識别等AI處理。視覺AI處理以卷積神經網絡為核心，發展出來了各種模型。CNN 在圖像分類和目标檢測方面優勢的表現，它已成為計算機視覺和視覺跟蹤的主流深度學習模型。當智能裝置自帶硬體加速功能時，圖像資料處理模型會在智能裝置本地運作得到結果。當沒有硬體加速，或者CPU/MCU處理速度不夠支撐模型分析時，可以使用雲端算法。

物聯網多媒體技術架構

物聯網領域很多晶片廠商都會在系統上定義一套自己的多媒體架構，到目前為止并沒有一個統一的架構。使用非常廣泛的多媒體架構是OpenMAX(Open Media Acceleration)。OpenMAX是跨平台可移植的多媒體架構，可以加速多媒體應用程式的開發。OpenMAX分為三層：

應用層(Application Layer)，提供應用程式和多媒體架構之間的标準接口
內建層(Integration Layer)，定義了多媒體架構層和各種多媒體元件之間的标準接口

開發層(Development Layer)，提供軟體和實體硬體和實體硬體之間的标準接口

主要提供的APIs包括視訊，音頻和靜态圖像。除了架構和标準化接口外，最主要的功能包括Buffer在音視訊流過程中的管理。通過使用多媒體技術架構可以極大地加速開發的進度。

視覺技術應用及關鍵能力

物聯網視覺技術主要用于IP Camera，智能門禁，貓眼，智能面闆和帶屏智能瘦終端等。其中的關鍵技術能力包括了視訊雲服務，可視對講服務，及AI能力等。

視訊雲服務主要是在智能裝置上實作音視訊資料的傳輸，讓使用者可以實時進行音視訊通話，或者拉取音視訊資料碼流。技術上可以抽象為三個通道，第一個是用于傳輸控制指令的信令通道，第二個是傳輸音視訊的資料通道，第三個是資料傳輸的控制通道。典型的應用場景有攝像頭采集視訊碼流後，在手機端預覽實時畫面；手機和智能手表之間實時音視訊通話；智能樓宇對講系統等。

物聯網視覺技術及應用圖像資料的采集圖像資料的處理物聯網多媒體技術架構視覺技術應用及關鍵能力

圖像資料的采集

圖像資料的處理

物聯網多媒體技術架構

視覺技術應用及關鍵能力

繼續閱讀

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普

【python】【資料處理】畫多元資料分布圖