天天看點

深度學習中的圖像分割:方法和應用

基于人工智能和深度學習方法的現代計算機視覺技術在過去10年裡取得了顯著進展。如今,它被用于圖像分類、人臉識别、圖像中物體的識别、視訊分析和分類以及機器人和自動駕駛車輛的圖像處理等應用上。

許多計算機視覺任務需要對圖像進行智能分割,以了解圖像中的内容,并使每個部分的分析更加容易。今天的圖像分割技術使用計算機視覺深度學習模型來了解圖像的每個像素所代表的真實物體,這在十年前是無法想象的。

深度學習可以學習視覺輸入的模式,以預測組成圖像的對象類。用于圖像處理的主要深度學習架構是卷積神經網絡(CNN),或者是特定的CNN架構,如AlexNet、VGG、Inception和ResNet。計算機視覺的深度學習模型通常在專門的圖形處理單元(GPU)上訓練和執行,以減少計算時間。

什麼是圖像分割?

圖像分割是計算機視覺中的一個關鍵過程。它包括将視覺輸入分割成片段以簡化圖像分析。片段表示目标或目标的一部分,并由像素集或“超像素”組成。圖像分割将像素組織成更大的部分,消除了将單個像素作為觀察機關的需要。圖像分析有三個層次:

  • 分類 - 将整幅圖檔分成“人”、“動物”、“戶外”等類别
  • 目标檢測 - 檢測圖像中的目标并在其周圍畫一個矩形,例如一個人或一隻羊。
  • 分割 - 識别圖像的部分,并了解它們屬于什麼對象。分割是進行目标檢測和分類的基礎。
    深度學習中的圖像分割:方法和應用

語義分割 vs. 執行個體分割

在分割過程本身,有兩個粒度級别:

  • 語義分割 - 将圖像中的所有像素劃分為有意義的對象類。這些類是“語義上可解釋的”,并對應于現實世界的類别。例如,你可以将與貓相關的所有像素分離出來,并将它們塗成綠色。這也被稱為dense預測,因為它預測了每個像素的含義。
    深度學習中的圖像分割:方法和應用
  • 執行個體分割 - 辨別圖像中每個對象的每個執行個體。它與語義分割的不同之處在于它不是對每個像素進行分類。如果一幅圖像中有三輛車,語義分割将所有的車分類為一個執行個體,而執行個體分割則識别每一輛車。

傳統的圖像分割方法

還有一些過去常用的圖像分割技術,但效率不如深度學習技術,因為它們使用嚴格的算法,需要人工幹預和專業知識。這些包括:

  • 門檻值 - 将圖像分割為前景和背景。指定的門檻值将像素分為兩個級别之一,以隔離對象。門檻值化将灰階圖像轉換為二值圖像或将彩色圖像的較亮和較暗像素進行區分。
  • K-means聚類 - 算法識别資料中的組,變量K表示組的數量。該算法根據特征相似性将每個資料點(或像素)配置設定到其中一組。聚類不是分析預定義的組,而是疊代地工作,進而有機地形成組。
  • 基于直方圖的圖像分割 - 使用直方圖根據“灰階”對像素進行分組。簡單的圖像由一個對象和一個背景組成。背景通常是一個灰階級,是較大的實體。是以,一個較大的峰值代表了直方圖中的背景灰階。一個較小的峰值代表這個物體,這是另一個灰色級别。
  • 邊緣檢測 - 識别亮度的急劇變化或不連續的地方。邊緣檢測通常包括将不連續點排列成曲線線段或邊緣。例如,一塊紅色和一塊藍色之間的邊界。

深度學習如何助力圖像分割方法

現代圖像分割技術以深度學習技術為動力。下面是幾種用于分割的深度學習架構:

使用CNN進行圖像分割,是将圖像的patch作為輸入輸入給卷積神經網絡,卷積神經網絡對像素進行标記。CNN不能一次處理整個圖像。它掃描圖像,每次看一個由幾個像素組成的小“濾鏡”,直到它映射出整個圖像。

傳統的cnn網絡具有全連接配接的層,不能處理不同的輸入大小。FCNs使用卷積層來處理不同大小的輸入,可以工作得更快。最終的輸出層具有較大的感受野,對應于圖像的高度和寬度,而通道的數量對應于類的數量。卷積層對每個像素進行分類,以确定圖像的上下文,包括目标的位置。

內建學習 将兩個或兩個以上相關分析模型的結果合成為單個。內建學習可以提高預測精度,減少泛化誤差。這樣就可以對圖像進行精确的分類和分割。通過內建學習嘗試生成一組弱的基礎學習器,對圖像的部分進行分類,并組合它們的輸出,而不是試圖建立一個單一的最優學習者。

DeepLab 使用DeepLab的一個主要動機是在幫助控制信号抽取的同時執行圖像分割 —— 減少樣本的數量和網絡必須處理的資料量。另一個動機是啟用多尺度上下文特征學習 —— 從不同尺度的圖像中聚合特征。DeepLab使用ImageNet預訓練的ResNet進行特征提取。DeepLab使用空洞卷積而不是規則的卷積。每個卷積的不同擴張率使ResNet塊能夠捕獲多尺度的上下文資訊。DeepLab由三個部分組成:

  • Atrous convolutions — 使用一個因子,可以擴充或收縮卷積濾波器的視場。
  • ResNet — 微軟的深度卷積網絡(DCNN)。它提供了一個架構,可以在保持性能的同時訓練數千個層。ResNet強大的表征能力促進了計算機視覺應用的發展,如物體檢測和人臉識别。
  • Atrous spatial pyramid pooling (ASPP) — 提供多尺度資訊。它使用一組具有不同擴充率的複雜函數來捕獲大範圍的上下文。ASPP還使用全局平均池(GAP)來合并圖像級特征并添加全局上下文資訊。

SegNet neural network 一種基于深度編碼器和解碼器的架構,也稱為語義像素分割。它包括對輸入圖像進行低維編碼,然後在解碼器中利用方向不變性能力恢複圖像。然後在解碼器端生成一個分割圖像。

深度學習中的圖像分割:方法和應用

圖像分割的應用

圖像分割有助于确定目标之間的關系,以及目标在圖像中的上下文。應用包括人臉識别、車牌識别和衛星圖像分析。例如,零售和時尚等行業在基于圖像的搜尋中使用了圖像分割。自動駕駛汽車用它來了解周圍的環境。

目标檢測和人臉檢測

這些應用包括識别數字圖像中特定類的目标執行個體。語義對象可以分類成類,如人臉、汽車、建築物或貓。

  • 人臉檢測 - 一種用于許多應用的目标檢測,包括數字相機的生物識别和自動對焦功能。算法檢測和驗證面部特征的存在。例如,眼睛在灰階圖像中顯示為谷地。
  • 醫學影像 - 從醫學影像中提取臨床相關資訊。例如,放射學家可以使用機器學習來增強分析,通過将圖像分割成不同的器官、組織類型或疾病症狀。這可以減少運作診斷測試所需的時間。
  • 機器視覺 - 捕捉和處理圖像,為裝置提供操作指導的應用。這包括工業和非工業的應用。機器視覺系統使用專用錄影機中的數字傳感器,使計算機硬體和軟體能夠測量、處理和分析圖像。例如,檢測系統為汽水瓶拍照,然後根據合格 - 不合格标準分析圖像,以确定瓶子是否被正确地填充。

視訊監控 — 視訊跟蹤和運動目标跟蹤

這涉及到在視訊中定位移動物體。其用途包括安全和監視、交通控制、人機互動和視訊編輯。

  • 自動駕駛 自動駕駛汽車必須能夠感覺和了解他們的環境,以便安全駕駛。相關類别的對象包括其他車輛、建築物和行人。語義分割使自動駕駛汽車能夠識别圖像中的哪些區域可以安全駕駛。
  • 虹膜識别 一種能識别複雜虹膜圖案的生物特征識别技術。它使用自動模式識别來分析人眼的視訊圖像。
  • 人臉識别 從視訊中識别個體。這項技術将從輸入圖像中選擇的面部特征與資料庫中的人臉進行比較。

零售圖像識别

這個應用讓零售商了解貨架上商品的布局。算法實時處理産品資料,檢測貨架上是否有商品。如果有産品缺貨,他們可以找出原因,通知跟單員,并為供應鍊的相應部分推薦解決方案。

本文轉自人民數字FINTECH,本文一切觀點和機器智能技術圈子無關。

原文連結 線上免費體驗百種AI能力:【點此跳轉】
深度學習中的圖像分割:方法和應用