雷鋒網(公衆号:雷鋒網)按:本文由「圖普科技」編譯自Using Deep Learning to automatically rank millions of hotel images
德國比價網站idealo.de訓練了兩個深度神經網絡來評估圖像的美學品質和技術品質。

基于訓練模型的美感可視化(美觀性按從左到右的順序逐漸增加)
idealo.de是歐洲領先的價格比較網站,也是德國最大的電商門戶網站之一,可提供市場上最好的酒店價格比較。對于每家酒店,我們都會收到數十張圖檔,我們需在的優惠對比頁面上為每個優惠項選擇“最具吸引力”的圖檔,這是一項具有挑戰性的工作,因為照片和評論一樣對顧客是否預訂有着舉足輕重的影響。我們擁有全球百萬家酒店的近億張酒店圖像,需要對其進行“吸引力”評估。
我們基于谷歌釋出的研究論文“NIMA:神經圖像評估”,通過進行美學和技術品質分類來自動評估圖像品質。NIMA由兩個卷積神經網絡(CNN)組成,旨在分别預測圖像的美學品質和技術品質。我們通過遷移學習來訓練模型,其中ImageNet預訓練的CNN會針對每個品質分類任務進行微調。
在本文中,我們将介紹我們在整個過程中使用的訓練方法和一些見解。然後,我們将嘗試通過可視化我們訓練模型的卷積濾波器權重和輸出節點來闡明訓練模型習得的内容。
我們在GitHub上釋出了訓練模型和代碼。提供的代碼支援人們使用Keras中任何預訓練的CNN,是以我們希望為探索利用其他CNN進行圖像品質評估的作出貢獻 。
訓練
美學和技術分類器通過遷移學習方法進行訓練。我們将MobileNet架構與ImageNet權重相結合,并将MobileNet中的最後一個密集層替換為輸出為10個類(分數為1到10)的密集層。
Earth Mover損失函數
NIMA的一個特點是使用Earth Mover損失(EML)作為損失函數,與分類交叉熵(CCE)損失相反,該函數通常應用于深度學習分類任務。EML可以了解為使兩個機率分布相等需要移動的“泥土”的量。該損失函數的一個有用屬性是它可以捕獲類的固有順序。 在我們的圖像品質等級評估中,得分為4,5和6比得分為1,5和10的相關性更高,即在真實得分為10時,我們對得分為4的預測的懲罰比真實得分為5時更多。CCE無法獲得這種關系,并且在目标分類任務中通常不需要使用CCE。(例如,将樹錯誤分類為狗與将其歸類為貓同樣糟糕)。
為了使用EML,我們需要每個圖像在所有十個分數類别中的分布機率。對于用于訓練美學品質分類的AVA資料集,可以使用這些分布機率。對于用于技術品質分類的TID2013資料集,我們根據為每個圖像給出的平均分數推斷出其分布。有關我們的分布推斷的更多詳細資訊,請檢視我們的GitHub repo。
微調階段
我們的模型訓練分為兩個階段:
1.我們首先訓練具有較高學習速率的最後一個密集層,以確定将新添加的随機權重調整為ImageNet卷積權重。如果沒有這個老化期,你可能會在訓練開始時需要兼顧卷積權重,進而拖慢整個訓練過程。
2.在老化期之後,我們訓練學習速率較低的CNN中的所有權重。
對于美學和技術模型,訓練損失和驗證損失曲線分别在第5和第25個時間段後變平。這是一個很好的名額,說明新增加的權重已經學會盡可能好地分類不同美學和技術品質的圖像,并且是時候開始訓練所有權重了。
對于美學分類器,一旦我們也開始訓練卷積權重,損失會顯著下降(如左圖中的虛線),這表明我們正在調整美學品質分類任務的卷積權重。對于技術分類器,損失的下降幅度較小,這首先是反直覺的,因為圖像技術品質應該是對象不可知的,但ImageNet權重被優化以便識别對象。小幅下降可能是由于規範小型TID2013資料集訓練所需的學習速率很低。
您可以在我們的GitHub repo中找到用于訓練的所有超參數
結果
MobileNet美學預測
MobileNet技術預測
上述預測表明,美學分類器正确地将圖像按照美觀性進行了排列,從非常美觀(最左邊的日落圖像)到最不美觀(最右邊的無聊的酒店房間)。類似地,對于技術品質分類,分類器預測的未失真圖像(左起第一和第四張圖像)比進行了jpeg壓縮(第二和第五張)或模糊(第三和第六張)的圖像分數更高。
可視化
為了更好地了解CNN如何評估圖像的美學品質,我們使用了Lucid包來顯示Aesthetic MobileNet中的習得卷積濾波器權重和輸出節點。特征可視化這篇部落格文章提供了最先進的CNN可視化技術的精彩互動概述。
第23層濾波器可視化(頂行是ImageNet MobileNet,底行是Aesthetic MobileNet)
較早的卷積層通常與更簡單的結構相關聯,例如邊緣,波形圖案和網格。上圖顯示了與MobileNet第23層中的六個濾波器相關聯的圖案 - 頂行中的六張圖像是由原始的MobileNet ImageNet權重(ImageNet MobileNet)生成的,而底行圖像是由根據美學品質評級的AVA資料集微調的MobileNet權重(Aesthetic MobileNet)生成的。從濾波器可視化中我們可以看到,較早的卷積濾波器在整個微調過程中受到的影響不大,因為它們與原始圖像非常相似。
第51層濾波器可視化(頂行是ImageNet MobileNet,底行是Aesthetic MobileNet)
對于處于第51層的中間卷積濾波器,其所學習的形狀更複雜,類似于毛發或有扣眼的網格等交織結構。即使在這種程度,Aesthetic MobileNet濾波器也非常類似于ImageNet MobileNet濾波器。
第79層濾波器可視化(頂行是ImageNet MobileNet,底行是Aesthetic MobileNet)
後來的卷積層呈現出更複雜的結構,類似于動物和樹木的形狀。 我們可以看到,Aesthetic MobileNet的濾波器與ImageNet的濾波器有很大不同,因為它們似乎不太關注目标,例如 左起第四個濾波器中沒有動物形狀。
我們還可以将Aesthetic MobileNet的輸出節點可視化,來表示分數1到10的機率。是以,可視化顯示與每個分數相關聯的“代表性”圖像。
輸出節點可視化Aesthetic MobileNet(按升序排列,從左上角到右下角分數為1到10)
輸出節點的可視化很難解釋,就像很難定義美觀性一樣。若有任何不同的話,較低分數的圖像的可視化似乎不那麼多姿多彩,而較高的分數則與更多的色彩和豐富的形狀相關聯。 得分為10的圖像看起來類似于具有天空背景的景觀,通常被認為具有高度美感。
總結
在本文中,我們介紹了自動評估圖像品質的挑戰。經過訓練的美學和技術模型根據美學和技術品質成功地對圖像進行排序。我們通過可視化卷積濾波器和輸出節點進一步探索了美學模型的習得CNN權重,并得出結論,微調主要影響後來的卷積權重。
微調深度神經網絡是解決企業面臨的許多計算機視覺問題的一種良好政策。然而,這些模型的分類及其數百萬個參數通常很難解釋,我們希望通過可視化分析能使人們對這個黑盒子有所了解。
相關文章:
圖普科技 CEO 李明強:如何用圖像識别雲服務,建立商業閉環 丨CCF-GAIR 2018
Google工程師:教你用樹莓派+Arduino+TensorFlow搭建圖像識别小車
從原理到代碼:大牛教你如何用 TensorFlow 親手搭建一套圖像識别子產品 | AI 研習社
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。