天天看點

計算機視覺入門基礎——計算機如何‘看’片

計算機視覺是一門研究如何使機器‘看’的科學,我們都喜歡看美麗的圖像,但是你有沒有想過計算機是如何看這些圖像的?接下來,我會詳細介紹說明計算機如何處理圖像的。

計算機視覺入門基礎——計算機如何‘看’片
計算機視覺入門基礎——計算機如何‘看’片

我已将上面的圖像大小調整為18 * 18,以便于了解。與我們不同的是,計算機将圖像看作2d矩陣。你可能聽說有人說這幅畫的大小是1800 * 700或1300 * 700,這個大小顯示了一個圖像的寬度和高度。換句話說,如果大小為1300 * 700,則水準方向為1300像素,垂直方向為700像素。這意味着總共有910000(1300 * 700)像素。如果圖像的大小為700 * 500,那麼矩陣的維數将為(700,500)。這裡,<b>矩陣中的每個元素(像素)表示該像素中的亮度強度</b><b>。</b>這裡,0表示黑色,255表示白色,數字越小,越接近黑色(數字大小決定黑的程度)。

<b>彩色圖像</b>

在灰階圖像中,每個像素表示僅一種顔色的強度。換句話說,它有一個通道。而在彩色圖像中,我們有3個通道rgb(紅,綠,藍)。标準數位相機都有3(rgb)通道。

計算機視覺入門基礎——計算機如何‘看’片

如上圖所示,彩色圖像由紅色、綠色和藍色三個通道組成。現在的問題是,計算機如何看待這個形象?同樣,答案是他們看到矩陣。現在下一個問題應該是,我們要如何在矩陣中表示這個圖像,因為它有3個通道,與我們隻有一個通道的灰階圖像不同。在這種情況下,我們利用3d矩陣來實作表示彩色圖像。我們有一個通道的矩陣,但在這種情況下,我們将有三個矩陣堆疊在一起,這就是為什麼它是3d。700 * 700彩色圖像的尺寸将為(700,700,3)。假設第一個矩陣表示紅色通道,則該矩陣的每個元素表示該像素中的紅色強度,同樣為綠色和藍色。通常,彩色圖像中的每個像素具有與其相關聯的三個數字(0至255)。這些數字表示該特定像素中的紅色、綠色和藍色的強度。至于為什麼是紅綠藍這三色,想必大家都知道色度學的最基本原理,即三基色原理。大多數顔色都可以通過三色按照不同的比例混合産生。

<b>結論</b>

計算機将圖像看作矩陣。灰階圖像具有一個通道(灰色),是以我們可以在2d矩陣中表示灰階圖像,其中每個元素表示該特定像素中亮度的強度。記住,0表示黑色,255表示白色。灰階圖像有一個通道,而彩色圖像有三個通道rgb(紅、綠、藍)。我們可以在深度為3的3d矩陣中表示彩色圖像。

本文由阿裡雲雲栖社群組織翻譯。

文章原标題《how do computers see an image ?》,作者:savan visalpara

作者個人網站:https://savan77.github.io/,可以與作者交流。

譯者:袁虎,審閱:李烽 阿福

繼續閱讀