Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

此部分是計算機視覺部分，主要側重在底層特征提取，視訊分析，跟蹤，目标檢測和識别方面等方面。對于自己不太熟悉的領域比如錄影機标定和立體視覺，僅僅列出上google上引用次數比較多的文獻。有一些剛剛出版的文章，個人非常喜歡，也列出來了。

18. Image Stitching

圖像拼接，另一個相關的詞是Panoramic。在Computer Vision: Algorithms and Applications一書中，有專門一章是讨論這個問題。這裡的兩面文章一篇是綜述，一篇是這方面很經典的文章。

[2006 Fnd] Image Alignment and Stitching A Tutorial

[2007 IJCV] Automatic Panoramic Image Stitching using Invariant Features

若引用文獻：Brown M , Lowe D G . Automatic Panoramic Image Stitching using Invariant Features[J]. International Journal of Computer Vision, 2007, 74(1):59-73.

翻譯

使用不變特征自動全景圖像拼接——http://tongtianta.site/paper/38233

作者：MATTHEW BROWN AND DAVID G. LOWE

摘要 -本文涉及全自動全景圖像拼接的問題。雖然很好地研究了1D問題(單軸旋轉)，但2D或多行拼接更加困難。先前的方法已經使用人類輸入或對圖像序列的限制來建立比對圖像。在這項工作中，我們将拼接表示為多圖像比對問題，并使用不變的局部特征來找到所有圖像之間的比對。是以，我們的方法對輸入圖像的排序，方向，比例和照明不敏感。它對不屬于全景圖的噪聲圖像也不敏感，并且可以識别無序圖像資料集中的多個全景圖。除了提供更多細節之外，本文還通過引入增益補償和自動矯直步驟擴充了我們之前在該領域的工作(Brown和Lowe，2003)。

關鍵詞：多圖像比對，拼接，識别

1.簡介

全景圖像拼接有廣泛的研究文獻(Szeliski，2004; Milgram，1975; Brown和Lowe，2003)和幾個商業應用(Chen，1995; Realviz，http://www.realviz.com;

http://www.microsoft.com/products/imaging)。問題的基本幾何形狀是很好了解的，包括估計每個圖像的3×3相機矩陣或單應性(Hartley和Zisserman，2004; Szeliski和Shum，1997)。該估計過程需要初始化，其通常由使用者輸入提供以近似對準圖像，或者固定圖像排序。例如，與佳能數位相機捆綁在一起的PhotoStitch軟體需要水準或垂直掃描或方形圖像矩陣。REALVIZ Stitcher版本4(http://www.realviz.com)具有使用者界面，用于在自動注冊進行之前用滑鼠粗略定位圖像。我們的工作很新穎，因為我們不需要提供這樣的初始化。

在研究文獻中，自動圖像對齊和拼接的方法大緻分為兩類 - 直接(Szeliski和Kang，1995; Irani和Anandan，1999; Sawhney和Kumar，1999; Shum和Szeliski，2000)和基于特征(Zoghlami等，1997; Capel和Zisserman，1998; McLauchlan和Jaenicke，2002)。直接方法的優點是它們使用所有可用的圖像資料，是以可以提供非常準确的配準，但它們需要密切初始化。基于特征的配準不需要初始化，但是傳統的特征比對方法(例如，Harris角落周圍的圖像塊的相關性(Harris，1992; Shi和Tomasi，1994))缺乏實作任意全景圖像序列的可靠比對所需的不變性。

在本文中，我們描述了一種基于不變特征的全自動全景圖像拼接方法。這比以前的方法有幾個優點。首先，盡管輸入圖像中的旋轉，變焦和光照變化，但我們使用不變特征使得能夠可靠地比對全景圖像序列。其次，通過将圖像拼接視為多圖像比對問題，我們可以自動發現圖像之間的比對關系，并識别無序資料集中的全景圖。第三，我們使用多波段混合生成高品質的結果，以呈現無縫的輸出全景圖。本文通過引入增益補償和自動矯直步驟，擴充了我們在該領域的早期工作(Brown和Lowe，2003)。我們還描述了一個有效的束調整實作，并展示了如何對具有任意數量的波段的多個重疊圖像執行多波段混合。

在本文的其餘結構如下。第2節開發了問題的幾何形狀，并激發了我們對不變特征的選擇。第3節描述了我們的圖像比對方法(RANSAC)和圖像比對驗證的機率模型。在第4節中，我們描述了我們的圖像對齊算法(束調整)，它共同優化了每個錄影機的參數。第5-7節描述了渲染管道，包括自動拉直，增益補償和多頻段混合。在第9節中，我們提出了未來工作的結論和想法。

2.特征比對

全景識别算法的第一步是在所有圖像之間提取和比對SIFT(Lowe，2004)特征。SIFT特征位于高斯函數差的尺度 - 空間最大值/最小值處。在每個特征位置，建立特征尺度和方向。這給出了相似性不變的幀，在其中進行測量。盡管在該幀中簡單地采樣強度值将是相似性不變量，但實際上通過在方向直方圖中累積局部梯度來計算不變量描述符。這允許邊緣在不改變描述符向量的情況下稍微移動，進而為遠端變化提供一些魯棒性。這種空間累積對于移位不變性也很重要，因為興趣點位置通常僅在0-3像素範圍内準确(Brown等，2005; Sivic和Zisserman，2003)。通過使用梯度(消除偏差)和歸一化描述符矢量(消除增益)來實作照明不變性。

由于SIFT特征在旋轉和比例變化下是不變的，是以我們的系統可以處理具有不同方向和縮放的圖像(參見圖8)。請注意，使用傳統的特征比對技術(例如Harris角落周圍的圖像塊的相關性)是不可能的。普通(平移)相關在旋轉下不是不變的，Harris角對于尺度的變化不是不變的。

假設相機圍繞其光學中心旋轉，圖像可能經曆的變換組是一組特殊的單應性。我們通過旋轉矢量θ= [θ1, θ2, θ3]和焦距f對每個錄影機進行參數設定。這給出了成對的單應性

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

其中

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

并且

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

是均勻圖像位置(

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

，其中ui是二維圖像位置)。 4參數相機型号由定義

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

和(使用旋轉的指數表示)

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

理想情況下，人們會使用在這組變換下不變的圖像特征。但是，對于圖像位置的微小變化

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

或者相當于

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

，其中

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

是通過線性化關于ui0的單應性獲得的一種自然變換。這意味着每個小圖像更新檔都會經曆一次有限的變換，并且可以使用SIFT特征，這些特征在不确定的變化下是部分不變的。

一旦從所有n個圖像中提取特征(線性時間)，就必須比對它們。由于多個圖像可能與單個光線重疊，是以每個特征與特征空間中的k個最近鄰居比對(我們使用k = 4)。這可以在O(n log n)時間内通過使用k-d樹來找到近似的最近鄰居(Beis和Lowe，1997)。k-d樹是軸對齊的二進制空間分區，其在具有最高方差的次元中以均值遞歸地劃分特征空間。

3.圖像比對

在這個階段，目标是找到所有比對(即重疊)的圖像。連接配接的圖像比對組稍後将成為全景圖。由于每個圖像可能與每個圖像可能比對，是以該問題首先出現在圖像數量的二次方。然而，僅需要将每個圖像與少量重疊圖像比對，以便獲得圖像幾何形狀的良好解決方案。

從特征比對步驟，我們已經識别出具有大量比對的圖像。我們考慮一個恒定數量的m個圖像，它們與目前圖像具有最多的特征比對，因為潛在的圖像比對(我們使用m = 6)。首先，我們使用RANSAC選擇一組與圖像之間的單應性相容的内點。接下來，我們應用機率模型來驗證比對。

3.1 使用RANSAC進行穩健的單應性估計

RANSAC(随機樣本共識)(Fischler和Bolles，1981)是一種穩健的估計程式，它使用最小的随機采樣對應集來估計圖像變換參數，并找到與資料具有最佳共識的解決方案。在全景圖的情況下，我們選擇r = 4個特征對應的集合，并使用直接線性變換(DLT)方法計算它們之間的單應性H(Hartley和Zisserman，2004)。我們用n = 500次試驗重複這一點，并選擇具有最大内點數的解(其投影在公差ε像素内與H一緻)，見圖1。鑒于一對比對圖像之間特征比對正确的機率(内部機率)是pi，在n次試驗之後找到正确變換的機率是

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

經過大量試驗後，發現正确單應性的機率非常高。例如，對于inlier機率pi = 0.5，在500次試驗後未發現正确單應性的機率約為1×10-14。

RANSAC本質上是一種估算H的抽樣方法。如果不是最大化内部數量而是最大化對數似然的總和，則結果是最大似然估計(MLE)。此外，如果轉換參數的先驗可用，則可以計算最大後驗估計(MAP)。這些算法分别稱為MLESAC和MAPSAC(Torr，2002)。

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

圖1.從所有圖像中提取SIFT特征。在使用k-d樹比對所有特征之後，檢查具有與給定圖像比對的最大特征數量的m個圖像以進行圖像比對。首先執行RANSAC以計算單應性，然後調用機率模型以基于内部數量來驗證圖像比對。在此示例中，輸入圖像是517×374像素，并且有247個正确的特征比對

3.2 圖像比對驗證的機率模型

對于每對可能比對的圖像，我們有一組幾何一緻的特征比對(RANSAC内點)和一組在重疊區域内但不一緻的特征(RANSAC異常值)。我們的驗證模型的想法是比較通過正确的圖像比對或錯誤的圖像比對生成這組内部/異常值的機率。

對于給定圖像，我們表示重疊區域nf 中的特征總數和内部數ni。該圖像正确/不正确比對的事件由二進制變量mε{ 0,1}表示。第i個特征比對f(i) ε{0,1}的事件是一個内部/異常值，假設是獨立的伯努利，是以内部的總數是二項式的

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

其中p1是在給定正确的圖像比對的情況下特征是内部的機率，并且p0是在給定假圖像比對的情況下特征是内部的機率。一組特征比對變量{f(i)，i = 1,2，。，n f}表示為f(1：nf)。内點的數量

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

和B(·)是二項分布

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

我們選擇值p1 = 0.6和p0 = 0.1。我們現在可以使用貝葉斯規則評估圖像比對正确的後驗機率

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

如果p(m = 1 | f(1：nf))> pmin，我們接受圖像比對

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

選擇值p(m = 1)= 10-6和pmin = 0.999給出條件

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

對于正确的圖像比對，其中α= 8.0和

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

= 0.3。雖然在實踐中我們選擇了p0，p1，p(m = 0)，p(m = 1)和pmin的值，但原則上它們可以從資料中學習。例如，可以通過計算與大資料集上的正确單應性一緻的比對分數來估計p1。

一旦在圖像之間建立了成對比對，我們就可以将全景序列找到連接配接的比對圖像集。這使我們能夠識别一組圖像中的多個全景圖，并拒絕與其他圖像不比對的噪聲圖像(參見圖(2))。

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

圖2.識别全景圖。給定一組嘈雜的特征比對，我們使用RANSAC和機率驗證程式來找到一緻的圖像比對(a)。一對圖像之間的每個箭頭表示在該對之間找到了一組一緻的特征比對。檢測圖像比對的連接配接分量(b)并縫合成全景圖(c)。請注意，該算法對不屬于全景圖的噪聲圖像(大小為1的圖像的連接配接元件)不敏感。

4.捆綁調整

給定圖像之間的一組幾何一緻的比對，我們使用束調整(Triggs等，1999)來聯合求解所有相機參數。這是必要的步驟，因為成對單應性的連接配接将導緻累積誤差并忽略圖像之間的多個限制，例如，全景圖的末端應該連接配接起來。圖像被逐一添加到束調整器中，在每一步添加最佳比對圖像(最大比對數)。初始化新圖像的旋轉和焦距與其最佳比對的圖像相同。然後使用Levenberg-Marquardt更新參數。

我們使用的目标函數是一個robusti fi ed和平方投影誤差。也就是說，将每個特征投影到其比對的所有圖像中，并且相對于相機參數最小化平方圖像距離的總和。 (注意，也可以(并且實際上在統計上最佳)明确地表示未知射線方向X，并且與錄影機參數一起估計它們。如果使用稀疏束調整方法，這不會增加算法的複雜性(Triggs等，1999)。)給定對應關系uki↔ulj(uki表示圖像i中第k個特征的位置)，殘差為

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

其中pkij是從圖像j到對應于uki的點的圖像i的投影

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

誤差函數是所有殘留錯誤圖像的總和

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

其中n是圖像的數量，

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

是與圖像i比對的圖像集合，F(i，j)是圖像i和j之間的特征比對集合。我們使用Huber魯棒誤差函數(Huber，1981)

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

該誤差函數結合了内點的L 2範數優化方案的快速收斂特性(距離小于σ)，以及對于異常值(距離大于σ)的L 1範數方案的魯棒性。我們在初始化期間使用離群距離σ=∝，在最終解決方案中使用σ= 2像素。

這是我們使用Levenberg-Marquardt算法求解的非線性最小二乘問題。每個疊代步驟都是這種形式

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

其中Φ是所有參數，r是殘差和J =

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

。我們編碼了關于(對角線)協方差矩陣C p中的參數變化的先驗信念

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

這被設定成使得角度的标準偏差是σ=Π/ 16并且焦距σf=¯f / 10(其中¯f是到目前為止估計的焦距的平均值)。這有助于選擇合适的步長，進而加速收斂。例如，如果使用球面協方差矩陣，則旋轉中1弧度的變化将等同于焦距參數中1個像素的變化。最後，在每次疊代時改變λ參數以確定等式16的目标函數實際上确實減小。

例如，通過鍊規則分析地計算導數

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

其中

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

和

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

4.1 線性系統直接計算的快速求解

由于矩陣J是稀疏的，通過明确地将J乘以其轉置來形成JTJ是無效的。實際上，這将是束調整中最昂貴的步驟，對于M×N矩陣J(M是測量數量的兩倍并且N是參數的數量)的成本為O(MN2)。由于每個圖像通常僅比對其他圖像的一小部分，是以産生稀疏性。這意味着在實踐中，JTJ的每個元素可以在遠小于M次乘法的情況下計算

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

即，相機i和j之間的逆協方差僅取決于i和j之間的特征比對的殘差。

類似地，JTr不需要顯式計算，但可以通過計算

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

在兩種情況下，如果每個特征與每個單個圖像比對，則每個求和将需要M次乘法，但實際上，給定圖像的特征比對的數量遠小于此。是以，束調整的每次疊代是O(N 3)，這是求解N×N線性系統的成本。參數N的數量是圖像數量的4倍，并且通常M大約是N的100倍。

5.自動全景矯直

使用第2-4節的步驟進行的圖像配準給出了相機之間的相對旋轉，但是對于標明的世界坐标系仍然存在未知的3D旋轉。如果我們簡單地假設其中一個圖像的R = I，我們通常會在輸出全景圖中找到波浪效果。這是因為真正的相機不太可能是完美的水準和不傾斜。我們可以通過利用關于人們通常拍攝全景圖像的方式的啟發式來糾正這種波浪輸出并自動拉直全景。這個想法是人們很少相對于地平線扭曲相機，是以相機X矢量(水準軸)通常位于一個平面内(見圖3)。通過找到錄影機X向量的協方差矩陣的零向量，我們可以找到“向上矢量”u(垂直于包含錄影機中心和地平線的平面)

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

圖3.查找向上的向量u。一個良好的啟發式對齊波浪全景是要注意人們很少相對于地平線扭曲相機。是以，盡管傾斜(b)和旋轉(c)，相機X矢量通常位于平面中。向上矢量u(與重力方向相反)是垂直于該平面的矢量。

應用全局旋轉使得向上矢量u是垂直的(在渲染幀中)有效地從輸出全景圖中消除波浪效果，如圖4所示。

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

圖4.自動全景矯直。使用使用者很少相對于地平線扭曲相機的啟發式算法允許我們通過計算向上矢量(垂直于包含地平線和相機中心的平面)來拉直波浪全景圖。

6.獲得補償

在前面的部分中，我們描述了一種計算每個錄影機的幾何參數(方向和焦距)的方法。在本節中，我們将展示如何求解光度參數，即圖像之間的整體增益。這是以類似的方式設定的，在所有圖像上定義了錯誤功能。誤差函數是所有重疊像素的增益歸一化強度誤差之和

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

其中gi，gj是增益，R(i，j)是圖像i和j之間的重疊區域。在實踐中，我們通過每個重疊區域

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

中的平均值來近似I(ui)

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

這簡化了計算并且給出了異常值的一些魯棒性，這可能由于圖像之間的小的配準不良而産生。此外，由于g = 0是問題的最佳解決方案，我們添加一個先前項以保持增益接近于1。是以錯誤功能變為

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

其中Nij =| R(i，j)| 等于圖像i中在圖像j中重疊的像素數。參數σN和σg分别是歸一化強度誤差和增益的标準偏差。我們選擇值σN= 10.0，(I ε {0，255})和σg= 0.1。這是增益參數g中的二次目标函數，可以通過将導數設定為0來以閉合形式求解(參見圖5)。

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

圖5.增益補償。請注意，如果未應用增益補償(a) - (b)，則可以看到圖像之間亮度的較大變化。在增益補償之後，由于諸如漸暈(c)之類的未模型化效果，一些圖像邊緣仍然可見。使用多波段混合(d)可以有效地平滑這些。

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

圖6.多頻段混合。對于k = 1,2,3的帶通圖像Bkσ(θ，ϕ)顯示在左側，右側顯示相應的混合權重Wkσ(θ，ϕ)。初始混合權重配置設定給1，其中每個圖像具有最大權重。為了獲得每個混合函數，權重在空間頻率σ處被模糊，并且形成相同空間頻率的帶通圖像。使用基于混合權重的權重和将帶通圖像混合在一起(注意：為了清晰起見，這些圖中的混合寬度被誇大了)。

7.多波段混合

理想情況下，沿着光線的每個樣本(像素)在與其相交的每個圖像中具有相同的強度，但實際上情況并非如此。即使在增益補償之後，由于許多未模型化的效果，例如漸暈(強度朝向圖像邊緣減小)，由于光學中心的不希望的運動導緻的視差效應，由于誤差導緻的錯誤配準誤差，一些圖像邊緣仍然可見。 - 相機的模型，徑向變形等。是以，良好的混合政策很重要。

從前面的步驟我們得到n個圖像I i(x，y)(i ε{1，n})，給定已知的配準，它可以用公共(球形)坐标系統表示為I i(θ，ϕ)。為了組合來自多個圖像的資訊，我們為每個圖像配置設定權重函數W(x，y)=w(x)w(y)其中w(x)從圖像中心的1到邊緣處的0線性變化。。權重函數也在球面坐标W i(θ，ϕ)中重新采樣。混合的簡單方法是使用這些權重函數沿每條射線執行圖像強度的權重和

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

其中I linear(θ，ϕ)是使用線性混合形成的複合球形圖像。然而，如果存在小的配準誤差，這種方法可能導緻高頻細節的模糊(參見圖7)。為了防止這種情況，我們使用Burt和Adelson(1983)的多頻帶混合算法。多頻段混合背後的想法是在很大的空間範圍内混合低頻，在短距離内混合高頻。

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

圖7.線性和多波段混合的比較。使用5波段和σ= 5像素的多波段混合來混合右側的圖像。左邊的圖像是線性混合的。在這種情況下，在移動的人上的比對導緻圖像之間的小的重合失調，這導緻線性混合的結果中的模糊，但是多波段混合圖像是清楚的。

我們通過找出圖像i最負責的點集來初始化每個圖像的混合權重

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

即W imax(θ，ϕ)對于(θ，ϕ)值為1，其中圖像i 具有最大權重和0，其中一些其他圖像具有更高權重。這些最大權重映射被連續模糊以形成每個頻帶的混合權重。

形成渲染圖像的高通版本

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

其中gσ(θ，ϕ)是标準偏差σ的高斯，而*運算符表示卷積。Bσ(θ，ϕ)表示波長範圍λ ε [0，σ ]中的空間頻率。我們使用通過模糊該圖像的最大權重圖形成的混合權重在圖像之間混合該帶

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

其中Wiσ(θ，ϕ)是波長λ ε [0，σ ]波段的混合權重。使用較低頻帶通圖像混合後續頻帶，并進一步模糊混合權重，即k≥1

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

其中設定高斯模糊核

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

的标準偏差，使得後續頻帶具有相同的波長範圍。

對于每個波段，使用相應的混合權重線性組合重疊圖像

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

算法：自動全景拼接

輸入：n無序圖像

I.從所有n個圖像中提取SIFT特征

II.使用k-d樹為每個要素找到k個最近鄰居

III.對于每個圖像：(i)選擇與該圖像具有最多特征比對的m個候選比對圖像

(ii)使用RANSAC找出幾何一緻的特征比對，以求解圖像對之間的單應性

(iii)使用機率模型驗證圖像比對

IV 查找圖像比對的連接配接元件

V.對于每個連接配接的元件：(i)執行束調整以解決所有錄影機的旋轉θ1 θ2 θ3和焦距f

(ii)使用多波段混合渲染全景

輸出：全景圖像

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

這導緻高頻帶(小kσ)在短距離内混合，而低頻帶(大kσ)在較大範圍内混合(見圖(6))。

請注意，我們選擇以球坐标θ，ϕ渲染全景圖。原則上，可以選擇視點周圍的表面的任何二維參數化以進行渲染。一個很好的選擇是渲染到三角形球體，在圖像平面中建構混合權重。這将具有均勻處理所有圖像的優點，并且還允許容易地重新采樣到其他表面(在圖形硬體中)。請注意，θ，ϕ參數化存在極點的奇點。

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

圖8.使用旋轉和縮放進行拼接。盡管輸入圖像中的旋轉，變焦和光照變化，但我們使用不變特征可以實作拼接。這裡塔底和頂端的插圖圖像是其他圖像比例的4倍。

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

圖9.帶有徑向變形的縫合。該圖顯示了對一階徑向畸變x' = (1 +κ |x| 2)x的拼接效果，其中κ在κ ε[-0.5,0.5]範圍内(圖像高度歸一化為機關長度)。請注意，在我們的算法中沒有模組化徑向失真。我們使用了44個圖像的測試序列，并應用了20個κ值的徑向畸變。圖(d) - (h)給出了失真圖像的例子。為了評估縫合的性能，我們計算了RANSAC後一緻比對的數量，結果如圖(a)所示。盡管在最壞的情況下每個特征的比對數量減少了大約三分之一，但正确的特征比對數仍然很高(每個圖像大約500個)，是以圖像仍然可以成功比對。然而，如圖(b) - (c)所示，徑向畸變會導緻渲染中出現明顯的僞影，并且在束調整和渲染階段對此進行校正對于高品質的全景拼接非常重要。

Computer Vision_18_Image Stitching：Automatic Panoramic Image Stitching using Invariant Features——200...

圖10.困難的拼接問題。這個例子(來自紐約時代廣場)包含許多移動物體和圖像之間亮度的大變化。盡管存在這些挑戰，我們的方法仍能夠找到一緻的不變特征集，并正确地注冊圖像。未來的自動圖像拼接器可以檢測運動物體，并計算場景的高動态範圍輻射圖。這将使使用者能夠使用不同的曝光設定和移動的對象來“重新拍攝”場景。

8.結果

圖2顯示了全景識别算法的典型操作。輸入包含4個全景圖和4個噪聲圖像的一組圖像。該算法檢測圖像比對和不比對圖像的連通分量，并輸出4個混合全景圖。

圖5顯示了一個更大的例子。這個序列是使用相機的自動模式拍攝的，這樣可以使光圈和曝光時間發生變化，并且可以在某些圖像上顯示閃光。盡管照明發生了這些變化，但SIFT功能可以很好地比對，并且多頻段混合政策可以産生無縫的全景。輸出為360 * 100°，并以球面坐标(θ，ϕ)渲染。所有57個圖像完全自動比對，無使用者輸入，并且最終注冊解決了4×57 = 228參數優化問題。2272×1704像素輸入圖像在60秒内比對并記錄，并且再拍攝15分鐘以呈現8908×2552(23百萬像素)輸出全景。在57秒内渲染了2000×573預覽。測試是在1.6 GHz Pentium M上進行的。

9.結論

本文介紹了一種全新的全自動全景拼接系統。我們使用不變的局部特征和機率模型來驗證圖像比對，這使我們能夠識别無序圖像集中的多個全景圖，并在沒有使用者輸入的情況下完全自動縫合它們。該系統對于相機變焦，輸入圖像的方向以及由閃光和曝光/光圈設定引起的照明變化非常穩健。多頻段混合方案確定了圖像之間的平滑過渡，盡管存在照明差異，同時保留了高頻細節。

未來的工作

未來工作的可能領域包括補償相機和場景中的運動，以及更進階的相機幾何和光度特性模組化：

相機運動。由于光學中心的小運動，全景圖經常遭受視差錯誤。在從中心點重新渲染之前，可以通過求解場景中的相機平移和深度來移除這些。使用的良好表現可能是平面上的平面加上視差(Rother和Carlsson，2002)。雖然粗略的相機運動會導緻視差僞影，但拍攝期間的小動作會導緻運動模糊。運動模糊圖像可以使用附近的焦點圖像進行去模糊，如Bascle等人所述。 (1996)。類似的技術也可用于生成超分辨率圖像(Capel和Zisserman，1998)。

場景動作。盡管我們的多波段混合政策在許多情況下運作良好，但是當在多個圖像之間進行混合時，場景中的大對象運動會導緻可見的僞影(參見圖10)。另一種方法是基于圖像之間的差異區域自動找到最佳接縫線(Davis，1998; Uyttendaele等，2001; Agarwala等，2004)。

進階相機模組化。大多數相機中不包括在投影相機模型中(保留直線)的一個重要特征是徑向失真(Brown，1971)。雖然我們的算法沒有明确地模組化，但我們有在适度的徑向變形量下測試了性能(見圖9)。雖然在我們的實驗中全景識别和近似對齊對于徑向失真是穩健的，但是在渲染結果中存在明顯的僞像。是以，高品質圖像拼接應用将需要至少在束調整和渲染階段中包括徑向畸變參數。理想的圖像拼接器還将支援多個運動模型，例如，圍繞點旋轉(例如全景圖)，觀察平面(例如白闆)和歐幾裡德變換(例如對齊掃描圖像)。還可以渲染多種表面類型，例如球形，圓柱形，平面。

光度模組化。原則上，還應該可以估計相機的許多光度參數。漸暈(朝向圖像邊緣的強度降低)是僞影的常見來源，特别是在諸如天空的均勻顔色區域中(Goldman和Chen，2005)。人們還可以從重疊圖像區域獲得高動态範圍(Debevec和Malik，1997; Seetzen等，2004)資訊，并渲染色調映射或合成曝光圖像。

我們開發了一個C++ 實作本文所述的算法，稱為Autostitch。該程式的示範可以從http://www.autostitch.net下載下傳。

參考文獻

Agarwala, A., Dontcheva, M., Agarwala, M., Drucker, S., Colburn, A., Curless, B., Salesin, D., and Cohen, M. 2004. Interactive digital photomontage. In ACM Transactions on Graphics (SIGGRAPH’04).

Burt, P. and Adelson, E. 1983. A multiresolution spline with application to image mosaics. ACM Transactions on Graphics, 2(4):217–236.

Bascle, B., Blake, A., and Zisserman, A. 1996. Motion deblurring and super-resolution from and image sequence. In Proceedings of the 4th European Conference on Computer Vision (ECCV96). Springer-Verlag, pp. 312–320.

Beis, J. and Lowe, D. 1997. Shape indexing using approximate nearestneighbor search in high-dimensional spaces. In Proceedings of the Interational Conference on Computer Vision and Pattern Recognition (CVPR97), pp. 1000–1006.

Brown, M. and Lowe, D. 2003. Recognising panoramas. In Proceedings

of the 9th International Conference on Computer Vision (ICCV03). Nice, vol. 2, pp. 1218–1225.

Brown, D. 1971. Close-range camera calibration. Photogrammetric Engineering, 37(8):855–866.

Brown, M., Szeliski, R., and Winder, S. 2005. Multi-image matching using multi-scale oriented patches. In Proceedings of the Interational Conference on Computer Vision and Pattern Recognition (CVPR05).San Diego.

Chen, S. 1995. Quick Time VR—An image-based approach to virtual environment navigation. In SIGGRAPH’95, vol. 29, pp. 29–38.

Capel, D. and Zisserman, A. 1998. Automated mosaicing with superresolution zoom. In Proceedings of the Interational Conference on Computer Vision and Pattern Recognition (CVPR98), pp. 885–891.

Davis, J. 1998. Mosaics of scenes with moving objects. In Proceedings of the Interational Conference on Computer Vision and Pattern Recognition (CVPR98), pp. 354–360.

Debevec, P. and Malik, J. 1997. Recovering high dynamic range radiance maps from photographs. Computer Graphics, 31:369–378.

Fischler, M. and Bolles, R. 1981. Random sample consensus: A paradigm for model fitting with application to image analysis and automated cartography. Communications of the ACM, 24:381–395.

Goldman, D.B. and Chen, J.H. 2005 Vignette and exposure calibation and compensation. In Proceedings of the 10th International Conference on Computer Vision (ICCV05), pp. I:899–906.

Harris, C. 1992. Geometry from visual motion. In Blake, A. and Yuille, A., (eds.), Active Vision. MIT Press, pp. 263–284.

Huber P.J. 1981. Robust Statistics. Wiley.

Hartley, R. and Zisserman, A. 2004. Multiple View Geometry in Computer Vision, 2nd edn. Cambridge University Press, ISBN:0521540518.

Irani, M. and Anandan, P. 1999. About direct methods. In Triggs, B., Zisserman, A., and Szeliski, R. (eds.), Vision Algorithms: Theory and Practice, number 1883 in LNCS. Springer-Verlag, Corfu, Greece, pp. 267–277.

Lowe, D. 2004. Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision, 60(2):91–110.

Meehan, J. 1990. Panoramic Photography. Amphoto Books.

Milgram, D. 1975. Computer methods for creating photomosaics. IEEE Transactions on Computers, C-24 (11):1113–1119.

McLauchlan, P. and Jaenicke, A. 2002. Image mosaicing using sequential bundle adjustment. Image and Vision Computing, 20(9–10):751–759.

Microsoft Digital Image Pro. http://www.microsoft.com/products/imaging.

Rother, C. and Carlsson, S. 2002. Linear multi view reconstruction and camera recovery using a reference plane. International Journal of Computer Vision, 49(2/3):117–141. Realviz. http://www.realviz.com.

Seetzen, H., Heidrich, W., Stuerzlinger, W., Ward, G., Whitehead, L., Trentacoste, M., Ghosh, A., and Vorozcovs, A. 2004. High dynamic range display systems. In ACM Transactions on Graphics (SIGGRAPH’04).

Szeliski, R. and Kang, S. 1995. Direct methods for visual scene reconstruction. In IEEE Workshop on Representations of Visual Scenes. Cambridge, MA, pp. 26–33.

Sawhney, H. and Kumar, R. 1999. True multi-image alignment and its application to mosaicing and lens distortion correction. IEEE Transactios on Pattern Analysis and Machine Intelligence, 21(3):235–243.

Szeliski, R. and Shum, H. 1997. Creating full view panoramic image mosaics and environment maps. Computer Graphics (SIGGRAPH’97), 31(Annual Conference Series):251–258.

Shum, H. and Szeliski, R. 2000. Construction of panoramic mosaics with global and local alignment. International Journal of Computer Vision, 36(2):101–130.

Shi, J. and Tomasi, C. 1994. Good features to track. In Proceedings of the Interational Conference on Computer Vision and Pattern Recognition (CVPR94). Seattle.

Sivic, J. and Zisserman, A. 2003. Video Google: A text retrieval approach to object matching in videos. In Proceedings of the 9th International Conference on Computer Vision (ICCV03).

Szeliski, R. 2004. Image alignment and stitching: A tutorial. Technical Report MSR-TR-2004-92, Microsoft Research.

Triggs, W., McLauchlan, P., Hartley, R., and Fitzgibbon, A. 1999. Bundle adjustment: A modern synthesis. In Vision Algorithms: Theory and Practice, number 1883 in LNCS. Springer-Verlag. Corfu, Greece, pp. 298–373.

Torr, P. 2002. Bayesian model estimation and selection for epipolar geometry and generic manifold fitting. International Journal of Computer Vision, 50(1):35–61.

Uyttendaele, M., Eden, A., and Szeliski, R. 2001. Eliminating ghosting and exposure artifacts in image mosaics. In Proceedings of the Interational Conference on Computer Vision and Pattern Recognition (CVPR01). Kauai, Hawaii, vol. 2, pp. 509–516.

Zoghlami, I., Faugeras, O., and Deriche, R. 1997. Using geometric corners to build a 2D mosaic from a set of images. In Proceedings of the International Conference on Computer Vision and Pattern Recognition, Puerto Rico. IEEE.