圖像識别技術的原理

人類是怎麼識别的？當我們看到一個東西，大腦會迅速判斷是不是見過這個東西或者類似的東西。這個過程有點兒像搜尋，我們把看到的東西和記憶中相同或相類的東西進行比對，進而識别它。機器的圖像識别也是類似的，通過分類并提取重要特征而排除多餘的資訊來識别圖像。這就是最大的原理，看起來一點兒都不複雜對不對？

期初人工智能的先驅們也覺得這挺簡單，然鵝……

那是1966年的夏天，人工智能之父Minsky給學生布置了一個暑假作業：要求學生通過編寫一個程式，讓計算機告訴我們它通過攝像頭看到了什麼。于是一大票人從此走上了圖像識别的不歸路，我想當時學生們的内心肯定是這樣的：

畢竟，50多年過去了，這個作業還不能說真正做完……

那麼，完成作業的方法是如何一步步更新的呢？

到了上世紀七八十年代，Minsky布置的作業算是有了些眉目。現代電子計算機的出現，讓計算機有機會嘗試回答出它看到了什麼東西。

研究人員首先從人類看東西的方法中獲得借鑒。當時人們普遍認為，人類能看到并了解事物是因為通過兩隻眼睛可以立體地觀察事物（現在看來當然是極大的誤解……）。是以要想讓計算機了解它所看到的圖像，必須先将事物的三維結構從二維的圖像中恢複出來，這就是所謂的“三維重構”的方法。

人眼三維效果示意圖（圖檔來自網絡）

另一個靈感是，人們認為人之是以能識别出一個蘋果，是因為人們已經有了先驗知識：蘋果是紅色的、圓的、表面光滑的。如果給機器也建立一個這樣的知識庫，讓機器将看到的圖像與之比對，是否可以讓機器識别乃至了解它所看到的東西呢，這是所謂的“先驗知識庫”的方法。

先驗知識分解

這套方法隻能夠提取少數基本特征，實用性當然不高，隻能用在某些光學字元識别、工件識别、顯微/航空圖檔的識别等。

到了上世紀九十年代，圖像處理硬體技術有了飛速進步，人們也開始嘗試不同的算法，包括統計方法和局部特征描述符的引入，使得計算機視覺技術取得了更大的發展，并開始廣泛應用于工業領域。

在“先驗知識庫”的方法中，事物的形狀、顔色、表面紋理等特征受到視角和觀察環境所影響，在不同角度、不同光線、不同遮擋的情況下會産生變化。是以，研究者的新方法是，通過局部特征的識别來判斷事物，對事物建立一個局部特征索引，即使視角或觀察環境發生變化，也能比較準确地比對上。

局部特征索引示意圖

進入21世紀，得益于網際網路興起和數位相機出現帶來的海量資料，加之機器學習方法的廣泛應用，計算機視覺發展迅速。以往許多基于規則的處理方式，都被機器學習所替代：機器自動從海量資料中總結歸納物體的特征，然後進行識别和判斷。

這一階段湧現出了非常多的應用，包括典型的相機人臉檢測、安防人臉識别、車牌識别等等。資料的積累還誕生了許多評測資料集，比如權威的人臉識别和人臉比對識别的平台——FDDB和LFW等，其中最有影響力的是ImageNet，包含1400萬張已标注的圖檔，劃分在上萬個類别裡。

基于機器學習的圖像識别流程示意

到了2010年以後，借助于深度學習的力量，計算機視覺技術得到了爆發增長和産業化。出現了神經網絡圖像識别，這就是目前比較新的一種圖像識别技術了。

它是怎麼工作的，我在《财富》雜志上見過一張簡明的示意圖，把它漢化過來給大家看，算是一目了然了：

來源：http://fortune.com

再舉一個醫療影像的圖像識别案例，也異曲同工，就是下面這張騰訊覓影對早期肺癌的篩查流程圖：

騰訊覓影對早期肺癌的篩查流程

覓影系統會先基于騰訊深度學習技術，對數十萬張肺部CT影像資料進行學習分析，獲得精準定位可疑結節的能力，實作對良惡性判别，進而幫助提高醫生診斷效率和準确率。

通過深度神經網絡，各類視覺識别的任務精度都得到了大幅提升。在全球最權威的計算機視覺競賽ILSVR上，千類物體識别錯誤率在2011年時還高達25.8%，從2012年引入深度學習之後，後續4年的錯誤率分别達到了16.4%、11.7%、6.7%、3.7%，出現了顯著突破。現在，人臉識别甚至能做到誤判率低于百萬分之一。

歸根結底，機器的圖像識别和人類的圖像識别原理相近，過程也大同小異。隻是技術的進步讓機器不但能像人類一樣認花認草認物認人，還開始擁有超越人類的識别能力。

女：看看我和昨天有什麼不同？我：嗯……好……好像沒什麼不同……女：我換了一支口紅呀！你是眼睛瞎了嗎？！！我：哦

女友的口紅啊，請放過我的肉眼…………

口紅的色号可視化。來源：Github 作者：@羨轍

啊，差點忘了，我還沒有女朋友。内牛滿面.gif

作者：華為雲開發者社群

連結：https://www.zhihu.com/question/38014222/answer/601659233

來源：知乎

著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。

圖像識别，是指利用計算機對圖像進行處理、分析和了解，以識别各種不同模式的目标和對象的技術，并對品質不佳的圖像進行一系列的增強與重建技術手段，進而有效改善圖像品質。

圖像識别以開放API（Application Programming Interface，應用程式程式設計接口）的方式提供給使用者，使用者通過實時通路和調用API擷取推理結果，幫助使用者自動采集關鍵資料，打造智能化業務系統，提升業務效率。

圖像标簽

自然圖像的語義内容非常豐富，一個圖像包含多個标簽内容，圖像标簽可識别三千多種物體以及兩萬多種場景和概念标簽，更智能、準确的了解圖像内容，讓智能相冊管理、照片檢索和分類、基于場景内容或者物體的廣告推薦等功能更加準确。

圖1 圖像标簽示例圖

名人識别

利用深度神經網絡模型對圖檔内容進行檢測，準确識别圖像中包含的政治人物、影視明星及網紅人物。

翻拍識别

翻拍識别是定制化圖像識别的一種，基于深度學習技術及大規模圖像訓練，翻拍識别可準确識别出商品标簽圖檔是原始圖檔，還是經過二次翻拍、列印翻拍等手段處理的非合規圖檔，幫助使用者打造智能化業務系統，減少人力成本。

低光照增強

主要解決的是夜晚或光線暗區域拍攝的圖像導緻人眼或機器“看不清”暗光區域的場景。低光照增強可以将圖像的暗光區域增強，使得原來人眼不可見區域變得可見，突顯富光照增強圖像中的有效視覺資訊。

圖2 低照度增強前後對比圖

圖像去霧

主要解決霧霾對成像品質的影響。錄影機在霧霾天氣拍攝照片或視訊時，不可避免出現圖像/視訊品質不高，拍攝場景不清晰的情況。圖像去霧算法除了可以去除均勻霧霾外，還可以處理非均勻的霧霾。

圖3 圖像去霧前後對比圖

超分圖像建構

主要解決圖像在成像過程中像素過少導緻的視覺資訊不夠或者由于壓縮導緻的圖像資訊丢失的場景。超分圖像重建基于深度學習算法，對圖像中缺失的視覺資訊進行補充，使得圖像視覺效果更好。

圖4 超分圖像重建前後對比圖

視訊背景音樂識别

可以實作視訊中背景音樂的識别。對于使用者提供URL的視訊，系統完成視訊擷取、音頻提取、音頻識别并傳回歌曲名稱。

作者：大煎餅

連結：https://www.zhihu.com/question/38014222/answer/1792423405

現在，圖像識别通常是通過深度學習算法實作的，主要包括

1）卷積神經網絡

卷積神經網絡最開始是用于手寫數字識别，後來也用于具體物體的識别。

卷積神經網絡

2）殘差網絡

殘差網絡是一種添加了跨層路徑的卷積神經網絡，其訓練難度顯著降低。

殘差網絡

3）殘差收縮網絡

在資料面臨強噪聲幹擾時，殘差收縮網絡[1][2]能夠通過自适應軟門檻值化，減輕噪聲的影響。

（面向強噪、高備援資料的）殘差收縮網絡

^M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, vol. 16, no. 7, pp. 4681-4690, 2020. https://ieeexplore.ieee.org/document/8850096

^深度殘差收縮網絡：借助注意力機制實作特征的軟門檻值化 https://zhuanlan.zhihu.com/p/121801797

圖像識别技術的原理

繼續閱讀

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

詳解STM32單片機的堆棧