前景圖的度量對于物體分割算法的發展有着重要的作用,特别是在物體檢測領域,其目的是在場景中精确地檢測和分割出物體。但是,目前廣泛應用的評估名額 (AP, AUC) 都是基于像素級别的誤差度量,缺少結構相似性度量,進而導緻評估不準确(優秀算法排名比拙劣算法靠後)進而影響了領域的發展。
天津南開大學媒體計算實驗室、美國中佛羅裡達大學機構的聯合研究團隊從人類視覺系統對場景結構非常敏感的角度出發,提出基于區域(Region-aware)和基于對象(Object-aware)的結構性度量 (S-measure) 方法來評估非二進制前景圖,進而使得評估更加可靠。該方法在5個基準資料集上采用5個元度量證明了新度量方法遠遠優于已有的度量方法,并且和人的主觀評價具有高度一緻性(77%Ours VS. 23%AUC)。
問題引出:專門評價名額缺陷
評價名額的合理與否對一個領域中模型的發展起到決定性的作用,現有的前景圖檢測中應用最廣泛的評價名額為:平均精度AP (average precision)和曲線下的面積AUC(area under the curve)。在評價非二進制前景圖時,需要将輸入圖像進行門檻值化得到多個門檻值,再計算精度(precision)和召回率(recall)。

圖1
然而,該方法已經被證明[1] 存在天然的缺陷。例如圖1中(a)和(b)是兩個完全不同的前景圖,但是經過門檻值化計算AP和AUC後,最後的評價結果是AP=1, AUC=1。這表示兩個前景圖的檢測效果相當,這顯然不合理。
圖2
再來看另外一個實際的例子,圖2中,根據應用排序(Application Ranking)以及人為排序(Human Ranking)認為藍色框的檢測結果由于紅色框。然而,如圖3所示,采用門檻值化、再進行插值的方法(AUC)會評判紅色框檢測結果由于藍色框。
圖3
是以,AUC評價方法完全依賴于插值的結果,忽略了錯誤發生的位置,也沒有考慮到對象的結構性度量。原因在于,AUC曲線是多個領域通用的評價名額,前景圖檢測領域還沒有一個簡單高效的專有名額。為此,有必要為該領域設計一個專門的簡單可靠的評價名額。
解決方案:面向區域和面向對象的結構度量
由于目前的評價名額都是考慮單個像素點的誤差,缺少結構相似性度量,進而導緻評估不準确。為此,研究團隊根據人類視覺系統對場景結構非常敏感的角度出發,分别從2個角度去解決結構度量的問題。
如圖4所示:(a)面向區域(Region-aware)結構度量和(b)面向對象(Object-aware)結構度量。
- 面向區域的結構度量将區域的前背景整體度量,作為面向對象(前背景分離度量)的補充,進而為可靠的整體結構度量提供支撐。
在計算面向區域部分,首先延着Ground-truth的重心部分采取2*2分塊法切割開,相應地為檢測結果圖切割,這樣得到4局部塊,後每塊相似性度量方法采用著名的結構性評價名額SSIM來度量。最後,根據每個分塊占整個前景圖的比例進行自适應權重求和得到面向區域的結構相似度
。
b. 面向對象的結構度量從物體角度出發,将前背景分離度量,與面向區域(前背景聚合成區域)互為補充,為度量對象級别的結構提供保障。
通過大量的研究發現,高品質的前景圖檢測結果具有如下特性:
-
- 前景與背景形成強烈的亮度對比。
- 前景與背景部分都近似均勻分布。
如圖5所示,result1檢測結果中對象内部和背景部分相對均勻,唯獨亮度對比不夠強烈,result2檢測結果中内部對象分布不均勻,背景部分大體均勻。
圖5
研究團隊通過設計一個簡單的亮度差異和均勻性項來度量結構相似性。
元度量實驗證明有效性
為了證明名額的有效性和可靠性,研究人員采用元度量的方法來進行實驗。通過提出一系列合理的假設,然後驗證名額符合這些假設的程度就可以得到名額的性能。簡而言之,元度量就是一種評測名額的名額。實驗采用了5個元度量:
元度量1:應用排序
推動模型發展的一個重要原因就是應用需求,是以一個名額的排序結果應該和應用的排序結果具有高度的一緻性。即,将一系列前景圖輸入到應用程式中,由應用程式得到其标準前景圖的排序結果,一個優秀的評價名額得到的評價結果應該與其應用程式标準前景圖的排序結果具有高度一緻性。如下圖6所示。
圖6
元度量2:最新水準 vs.随機結果
一個名額的評價原則應該傾向于選擇那些采用最先進算法得到的檢測結果而不是那些沒有考慮圖像内容的随機結果(例如中心高斯圖)。如下圖7所示。
圖7
元度量3:參考GT随機替換
原來名額認定為檢測結果較好的模型,在參考的Ground-truth替換為錯誤的Ground-truth時,分數應該降低。如圖8所示。
圖8
元度量4:輕微标注錯誤
評價名額應該具有魯棒性,一個好的評價名額不應對GT邊界輕微的手工标注誤差敏感。如圖9所示
圖9
元度量5:人工排序
人作為進階靈長類動物,擅長捕捉對象的結構,是以前景圖檢測的評價名額的排序結果,應該和人的主觀排序具有高度一緻性。我們通過收集45個不同年齡,學曆,性别,專業背景的受試者的排序結果進一步證明了提出的評價名額與人的評價具有高度的一緻性(最高可達77%)。下圖10所示為使用者調研的手機平台。
圖10
實驗結果
為了公平的比較,名額首先在公開的一個前景圖檢測資料集ASD[3]上對4個元度量進行評測。評測結果顯示我們的結果取得了最佳性能:
除了在基準資料集上進行評測外,還在另外4個具有不同特點的、更具挑戰性資料集上進行了廣泛的測試,以驗證名額的穩定性、魯棒性。
實驗結果表明:我們的名額分别在PASCAL, ECSSD, SOD和
HKU-IS資料集上比排名第二的名額錯誤率降低了67.62%,44.05%,17.81%,69.23%。這清楚地表明新的名額具有更強的魯棒性和穩定性。
總結
該評測名額将很快出現在标準的Opencv庫以及Matlab中,屆時可以直接調用。
評測名額的代碼計算簡單,僅需對均值、方差進行加減乘除即可,無需門檻值256次得到多個精度和召回率,再畫進行繁瑣的插值計算得到AUC曲線。是以,S-measure計算量非常小,在單線程CUP(4GHz)上度量一張圖像僅需要5.3ms.
原文釋出時間為:2018-04-16
本文作者:範登平(南開大學)
本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”。
原文連結:
南開大學提出新物體分割評價名額,相比經典名額錯誤率降低 69.23%