天天看點

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章

智能系統與技術叢書 點選檢視第二章 點選檢視第三章 深度學習與圖像識别:原理與實踐

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章
魏溪含 塗銘 張修鵬 著

第1章

機器視覺在行業中的應用

本章将介紹機器視覺的發展背景,而後針對機器視覺的主要應用場景做一個簡單的介紹,帶領讀者了解機器視覺都能應用在哪些領域、解決哪些問題。

1.1 機器視覺的發展背景

1.1.1 人工智能

人工智能(Artificial Intelligence,AI)是計算機科學的一個分支,其意在了解智能的實質,并生産出一種新的能以人類智能相似的方式做出反應的智能機器。該領域的研究包括機器人、語言識别、機器視覺、自然語言處理和專家系統等。

那麼,人們常說的人工智能、機器學習、深度學習的關系是什麼呢。如圖1-1所示,人工智能是一個比較大的領域,其中包括機器學習、深度學習、模式識别等,而神經網絡是機器學習中的一種方法,深度學習又是神經網絡方法中的一個子集。

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章

曆史上人工智能經曆了三次“春天”。人工智能的概念于20世紀50年代被首次提出,當時人們覺得人工智能在20年之内會改變世界,所有的工作都會被人工智能颠覆。直到1973年的《萊特希爾報告》明确指出當時人工智能的任何部分都沒有達到人們想象的水準,第一個“春天”随之結束。第二個“春天”是20世紀80年代,神經網絡和反向傳播算法的提出,以及專家系統的初步結果,讓科學家和企業家再次看到了希望。但因為普通神經網絡不可避免的問題以及專家系統的局限,第二次熱浪也逐漸冷卻。現在,随着深度學習技術的崛起,人工智能正迎來第三個“春天”。

1.1.2 機器視覺

機器視覺是人工智能的一個重要分支,其核心是使用“機器眼”來代替人眼。機器視覺系統通過圖像/視訊采集裝置,将采集到的圖像/視訊輸入到視覺算法中進行計算,最終得到人類需要的資訊。這裡提到的視覺算法有很多種,例如,傳統的圖像處理方法以及近些年的深度學習方法等。

對于人工智能的一個重要研究方向—機器視覺來說,這個春天與以往有什麼不同呢,我們來看圖1-2。圖1-2a展示了一個由彩色圖像組成的、分類的資料集Cifar10(第3章有詳細介紹),其中有飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、船、卡車10個類别,且每個類别中都有1000張32×32的彩色圖檔。圖1-2b展示的是不同算法在Cifar10資料集上的分類效果。從中我們可以看出,在深度學習出現以前,傳統的圖像處理和機器學習方法并不能很好地完成這樣一個簡單的分類任務,而深度學習的出現使得機器有了達到人類水準的可能。事實上,AlphaGo的出現已經證明了在一些領域,機器有了超越人類的能力。

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章
帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章

1.2 機器視覺的主要應用場景

由于深度學習技術的發展、計算能力的提升和視覺資料的增長,視覺智能計算技術在不少應用當中都取得了令人矚目的成績。圖像視訊的識别、檢測、分割、生成、超分辨、captioning、搜尋等經典和新生的問題紛紛取得了不小的突破。這些技術正廣泛應用于城市治理、金融、工業、網際網路等領域。本節将以9個場景為例,對一些常見的應用場景進行介紹,讓讀者直覺地了解機器視覺都能解決哪些問題。

1.2.1 人臉識别

人臉識别(Face Recognition)是基于人的面部特征資訊進行身份識别的一種生物識别技術。它通過采集含有人臉的圖檔或視訊流,并在圖檔中自動檢測和跟蹤人臉,進而對檢測到的人臉進行面部識别。人臉識别可提供圖像或視訊中的人臉檢測定位、人臉屬性識别、人臉比對、活體檢測等功能。

人臉識别是機器視覺最成熟、最熱門的領域,近幾年,人臉識别已經逐漸超過指紋識别成為生物識别的主導技術。人臉識别分為4個處理過程—人臉圖像采集及檢測、人臉圖像預處理、人臉圖像特征提取以及比對與識别,其主要應用場景如表1-1所示。

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章
帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章

由于人臉識别産業的需求旺盛,衆多大型科技公司和人工智能創業公司均有涉足該領域,目前該技術已經處于大規模商用階段,未來3~5年仍将繼續保持高速增長。

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章

1.2.2 視訊監控分析

視訊監控分析是利用機器視覺技術對視訊中的特定内容資訊進行快速檢索、查詢、分析的技術。由于攝像頭的廣泛應用,由其産生的視訊資料已是一個天文數字,這些資料蘊藏的價值巨大,靠人工根本無法統計,而機器視覺技術的逐漸成熟,使得視訊分析成為可能。通過這項技術,公安部門可以在海量的監控視訊中搜尋到罪犯;在擁有大量流動人群的交通領域,該技術也被廣泛應用于人群分析、防控預警等。

城市治理是視訊監控分析應用價值最高的領域之一,表1-2中列舉了一些典型的應用場景。

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章
帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章

視訊/監控領域盈利空間廣闊,商業模式多種多樣,将視覺分析技術應用于視訊監控領域正在形成一種趨勢,目前已率先應用于交通、安防、零售、社群、樓宇、校園、工地等場合。

1.2.3 工業瑕疵檢測

機器視覺技術可以快速擷取大量資訊,并進行自動處理。在自動化生産過程中,人們将機器視覺系統廣泛應用于工業瑕疵診斷、工況監視和品質控制等領域。

工業瑕疵診斷是指利用傳感器(如工業相機、X光等)将工業産品内外部的瑕疵進行成像,通過機器學習技術對這些瑕疵圖檔進行識别(如圖1-5),确定瑕疵的種類、位置,甚至對瑕疵産生的原因進行分析的一項技術。目前,工業瑕疵診斷已成為機器視覺的一個非常重要的應用領域。

随着制造業向智能化、無人化方向發展,以及人工成本的逐年上升,廣泛存在于制造業的産品外觀檢測迫切需要通過機器視覺技術替代人工外檢人員。

一方面圖像外檢技術可以運用到一些危險環境和人工視覺難以滿足要求的場合;另一方面,更重要的是,人工檢測面臨檢測速度慢、檢測準确率不穩定(随着人眼檢測時間的增加,檢測準确率明顯下降)、不同質檢員的檢測水準不一緻的情況,同時,質檢員的責任心、狀态也會影響檢測水準,這些都會直接影響産品的品質。而圖像外檢技術可以大大提高生産效率、速度和生産的自動化程度,降低人工成本。

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章

1.2.4 圖檔識别分析

這裡所說的圖檔識别是指人臉識别之外的靜态圖檔識别,圖檔識别可應用于多種場景,目前應用比較多的是以圖搜圖、物體/場景識别、車型識别、人物屬性、服裝、時尚分析、鑒黃、貨架掃描識别、農作物病蟲害識别等。

這裡列舉一個圖像搜尋的例子:拍立淘。拍立淘是手機淘寶的一個應用,主要通過圖檔來代替文字進行搜尋,以幫助使用者搜尋無法用簡單文字描述的需求。比如,你看到一條裙子很好看,但又很難用簡單的語言文字來描述這條裙子的樣子,那麼這個時候就可以使用拍立淘,通過圖檔輕松地在淘寶上搜出同款裙子,或者是與它非常接近的款式,如圖1-6所示。

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章

1.2.5 自動駕駛/駕駛輔助

自動駕駛汽車是一種通過計算機實作無人駕駛的智能汽車,它依靠人工智能、機器視覺、雷達、監控裝置和全球定位系統協同合作,讓計算機可以在沒有任何人類主動操作的情況下,自動安全地操作機動車輛(如圖1-7)。機器視覺的快速發展促進了自動駕駛技術的成熟,使無人駕駛在未來成為可能。

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章

自動駕駛技術鍊比較長,主要包含感覺階段、規劃階段和控制階段三個部分。機器視覺技術主要應用在無人駕駛的感覺階段,其基本原理可概括如下。

1)使用機器視覺擷取場景中的深度資訊,以幫助進行後續的圖像語義了解,在自動駕駛中幫助探索可行駛區域和目标障礙物。

2)通過視訊預估每一個像素的運動方向和運動速度。

3)對物體進行檢測與追蹤。在無人駕駛中,檢測與追蹤的目标主要是各種車輛、行人、非機動車。

4)對于整個場景的了解。最重要的有兩點,第一是道路線檢測,其次是在道路線檢測下更進一步,即将場景中的每一個像素都打成标簽,這也稱為場景分割或場景解析。

5)同步地圖建構和定位技術。

1.2.6 三維圖像視覺

三維圖像視覺主要是對三維物體進行識别,其主要應用于三維機器視覺、雙目立體視覺、三維重建、三維掃描、三維測繪、三維視覺測量、工業仿真等領域。三維資訊相比二維資訊,能夠更全面、真實地反映客觀物體,提供更大的資訊量。近年來,三維圖像視覺已經成為計算機視覺領域的重要課題,在虛拟現實、文物保護、機械加工、影視特技制作、計算機仿真、服裝設計、科研、醫學診斷、工程設計、刑事偵查現場痕迹分析、自動線上檢測、品質控制、機器人及許多生産過程中得到越來越廣泛的應用。

1.2.7 醫療影像診斷

醫療資料中有90%以上的資料來自于醫療影像。醫療影像領域擁有孕育深度學習的海量資料,醫療影像診斷可以輔助醫生做出判斷(如圖1-8),提升醫生的診斷效率。目前,醫療影像診斷主要應用于如表1-3所示的這些場景中。

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章

圖1-8是肝髒及結節分割技術的影像分析結果。

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章

1.2.8 文字識别

計算機文字識别,俗稱光學字元識别(Optical Character Recognition),是利用光學掃描技術将票據、報刊、書籍、文稿及其他印刷品的文字轉化為圖像資訊,再利用文字識别技術将圖像資訊轉化為可以使用的計算機輸入技術。該技術可應用于如表1-4所示的這些場景中。

帶你讀《深度學習與圖像識别:原理與實踐》之一:機器視覺在行業中的應用第1章

1.2.9 圖像/視訊的生成及設計

人工智能技術不僅可以對現有的圖檔、視訊進行分析、編輯,還可以進行再創造。機器視覺技術可以快速、批量、自動化地進行圖檔設計,是以其可為企業大幅度節省設計人力成本。

人工智能可以從藝術作品中抽象出視覺模式,然後将這些模式應用于具有該作品的标志性特征的攝影圖像的幻想再現。這些算法還可以将任何粗糙的塗鴉轉換成令人印象深刻的繪畫,看起來就像是由描繪真實世界模型的專家級人類藝術家建立的一樣。人工智能技術可以手繪人臉的草圖,并通過算法将其轉化為逼真的圖像;還可以指導計算機渲染任何圖像,使其看起來好像是由特定人類藝術家以特定風格創作的一樣;甚至可以對任何圖像、圖案圖形和其他不在源頭中的細節化腐朽為神奇。

1.3 本章小結

本章主要介紹了機器視覺的主要應用場景,目前絕大部分數字資訊都是以圖檔或視訊的形式存在的,若要對這些資訊進行有效分析利用,則要依賴于機器視覺技術的發展,雖然目前已有的技術已經能夠解決很多問題,但離解決所有問題還很遙遠,是以機器視覺的應用前景還是非常廣闊的。我們熱切地期盼更多的讀者投身到該領域,與我們一起探索圖像資料的無盡潛力。

繼續閱讀