天天看點

五種圖像标注的簡介

五種圖像标注的簡介

您是否曾被要求在圖像中尋找針對不同圖形區域的标注類資訊?在如今人工智能(AI)和機器學習(ML)盛行的環境中,各類AI開發人員和研究人員為了實作其項目的目标,需要通路大量具有高品質的資料。同時,随着“資料為王”的概念已深入人心,可以說,“沒有資料,就不會有所謂的資料科學。”目前,機器學習的一個主要應用領域,便是需要在計算機視覺(computer vision)中,對大量的圖像進行标注,使之成為實用的圖像資料。

本文将從如下方面和您讨論圖像标注的相關概念與類型:

什麼是計算機視覺?

什麼是圖像标注?

2D邊界框(Bounding Boxes)

3D邊界框/長方體(Cuboids)

多邊形(Polygons)

線和樣條線(Lines and Splines)

語義分割(Semantic Segmentation)

作為AI研究和開發的一個重要領域,計算機視覺旨在使計算機能夠“看到”并解釋所處的環境和狀态。從自動駕駛汽車,到無人機勘察,再到醫療診斷,以及面部識别與辨認等場景,計算機視覺在實際應用領域發揮着巨大的作用。

為了成功地模仿或超越人類的視覺功能,計算機視覺在對目标裝置進行開發和處理的過程中,需要通過對大量模型的訓練,實作對圖像的标注。

圖像标注是一個将标簽添加到圖像上的過程。其目标範圍既可以是在整個圖像上僅使用一個标簽,也可以是在某個圖像内的各組像素中配上多個标簽。一個簡單的例子是:我們在向幼兒提供各種動物的電子圖像時,可以通過将正确的動物名稱标記到每個圖像上,以友善幼兒在點觸圖像時能夠獲悉其名稱。當然,具體标注的方法取決于實際項目所使用到的圖像标注類型。有時候,我們可以将那些通過地圖APP采集的地面實況資料(ground truth data),作為帶标注的圖像,饋入計算機視覺的對應算法。通過反複訓練,模型便可以将已标注的實體與那些未标注的圖像區分開來。

最常見的圖像标注類型

上述示例非常簡單,我們在諸如汽車自動駕駛等領域,則會用到更加複雜的圖像标注和計算機視覺技術。那麼,我們該如何知道哪一種圖像标注類型更适合自己手頭的項目呢?下面我将向您介紹五種常見的圖像标注類型,及其相關應用。

1.2D邊界框

2D邊界框标注是指:為那些人類标注器(human annotator)提供圖像,并負責在圖像中的某些對象周圍繪制框。該邊框應盡可能地靠近對象的每個邊緣。此項工作通常是在不同公司的自定義平台上完成的。如果某個項目有着獨特的要求,那麼服務公司則可以通過調整其現有平台,以符合此類需求。

邊界框的一種典型應用是針對汽車自動駕駛的開發。标注器需要在捕獲到的交通圖像内識别車輛、行人和騎車人等實體,并在其周圍繪制邊界框。是以,開發人員通過為機器學習模型提供帶有邊界框标注的圖像,以幫助正在進行自動駕駛的車輛,實時地區分出各類實體,并避免觸碰到它們。

2.3D長方體

與邊界框非常相似,3D長方體标注是在立體圖像中的識别對象,并在其周圍繪制邊框。與僅描繪長和寬的2D邊界框不同,3D長方體則标注了對象的長、寬和近似深度。

使用3D長方體标注,人類标注器可以繪制一個框,将感興趣的對象封裝起來,并将錨點(anchor points)放置在對象的每個邊緣。如果對象的一個邊緣不可見、或被圖像中的另一個對象所遮擋,那麼标注器就會根據該對象的大小、高度、以及圖像的角度,來估算其邊緣的位置。

3.多邊形

有時候,圖像中的對象由于光照或角度等原因,其形狀、大小或方向無法被很好地适配上2D邊界框或3D長方體。同時,開發人員希望對圖像中的對象,進行更加精确的标注,例如:交通圖像中的汽車、空中圖像中的地标性建築物等。在這些情況下,我們可能需要選擇多邊形進行标注。

在使用多邊形時,标注器會通過在需要标注的對象的外邊緣,放置許多個點來繪制成線。這個過程有點類似我們小時候玩過的“連點成線,勾勒輪廓”的練習。在此基礎上,我們使用一組預定的實體類别(例如:汽車、自行車、卡車),對由這些點和線所包圍的區域内的空間進行标注。此外,當我們配置設定了多個類别時,它們就被稱為多類标注(multi-class annotation)。

4.線和樣條線

盡管線和樣條線可以被用于多種用途,但它們在此主要被用于訓練駕駛系統,以識别車道及其邊界。顧名思義,标注器将會簡單地沿着既定的機器學習方式,去繪制出邊界線。通過标注出車行道和人行道,它能夠訓練自動駕駛系統,了解所處的邊界,并保持在某條車道内,以避免壓線或轉向行駛。

此外,線和樣條線也可以被用于訓練倉庫裡的機器人,讓它們能夠整齊地将箱子挨個擺放,或是将物品準确地放置到傳送帶上。

5.語義分割

和上述主要着眼于繪制對象的外部邊緣(或邊界)分類不同,語義分割要更加精确和具體一些。它是一個将整個圖像中的每個像素與标簽相關聯的過程。在需要用到語義分割的項目中,我們通常會為人類标注器提供一系列預定義的标簽,以便它能夠從中選擇需要标記的内容。

語義分割使用的是和多邊形标注類似的平台,能夠讓标注器在需要标記的一組像素周圍繪制線條。當然,這些操作可以在AI輔助平台上完成,例如,處理程式雖然可以近似地繪制出汽車的輪廓邊界,但是為了避免錯誤,需要在分割過程中剔除掉汽車下方的陰影部分。

在實際應用中,标注器一旦接收到自動駕駛的訓練資料,就需要按照道路、建築物、騎車人、行人、障礙物、樹木、人行道、以及車輛等,對圖像中的所有内容,進行分類分割。而且,人類标注器會使用單獨的工具,裁剪掉不屬于主體的像素。

語義分割的另一個常見應用場景是醫學成像。針對提供過來的患者照片,标注器将從解剖學角度對不同的身體部位,打上正确的部位名稱标簽。是以,語義分割可以被用于處理諸如“在CT掃描圖像中标記腦部病變”,之類難度較大的特殊任務。

原标題:An Introduction to 5 Types of Image Annotation ,作者:Limarc Ambalina

本文轉載自51CTO,本文一切觀點和機器智能技術圈子無關

繼續閱讀