天天看點

知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

随着手機相機的更新,随手拿出手機拍照已經成為很多人不經意的日常,手機相冊、電腦硬碟中存儲的照片數量或許早已悄然過萬。各類社交平台上,每一秒都有數不勝數的圖檔被上傳和分享。

那麼,如何才能輕松篩除手機相冊中低品質的照片?如何才能從社交平台上的海量資料中挑選出高品質的圖檔用于首頁展示和推薦?如何才能預先過濾低品質的圖檔以提高後續内容稽核模型的效率……在面對這些難題時,圖像品質評估算法展現出了極大的應用價值。

背景介紹

圖像品質是一個寬泛的概念,在不同場景下、不同人的眼中,存在着不同的評價角度和評價标準。在攝影論壇上,專業裝置拍攝的高清大片比比皆是,普通手機拍攝的照片略顯遜色。

但在社交平台上,大多數圖檔都是使用者上傳的日常照片,那麼手機拍攝的照片隻要準确對焦、沒有運動模糊,其圖像品質通常已屬前列。甚至有時圖像失真也不一定是壞事。

例如對圖1中的X光圖像,人們希望它能夠清晰地展現人體組織中的各種細節,是以難以容忍任何噪聲,但在圖2中,背景的拖影反而展現出了圖像主體的高速運作,讓圖檔更具動感。隻要圖像具有清晰的主體,人們對模糊背景的容忍度就很高。

由此可見,圖像品質評估并沒有普适的标準和統一的方法,往往需要根據不同的場景選用不同的方案。

知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

圖1. X光圖像

知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

圖2. 高速運動的賽車照片

當下,随着移動裝置的普及和社交平台的流行,網絡使用者拍攝、上傳、轉載的圖檔數量呈爆炸式增長,監控和篩選圖檔資料重複且枯燥,借助于更高效的圖像品質評估方法方為明智之舉。

與此同時,這一應用場景也對圖像品質評估方法提出了新的要求:受到使用者的裝置和審美水準的影響,線上圖像的品質參差不齊。失真類型複雜多樣且不可預測,這要求品質評估模型具備更加穩健的評估能力。

圖像的失真類型

人類視覺系統對于圖像品質的感覺常常被籠統地稱為圖像清晰度。圖像的清晰度受到很多因素的影響,包括失焦、相對運動(即物體運動和相機抖動)、不完善的成像系統(如鏡頭、相機感光子產品性能較差)、圖像後處理技術(如壓縮和去噪)等。這些因素導緻的圖像失真,都會不同程度地影響圖像品質。由于網絡圖像通常都會經過拍攝裝置、網絡傳輸、顯示裝置這三個節點,在這些節點上所産生的圖像失真類型多樣,且程度不一,使得網絡圖像的失真不同于特定小場景中較為單一的圖像失真情況。其中,各種失真類型往往混雜交疊着出現,變化多樣,對建構圖像品質評估算法提出了更高的要求。

圖像品質評估的三類方法

圖像品質評估(Image Quality Assessment,IQA)是指通過對圖像相關特性的分析,來評估圖像的視覺失真程度。根據是否具有參考圖像,圖像品質評估可以分為全參考圖像品質評估(Full Reference-IQA,FR-IQA)、半參考圖像品質評估(Reduced Reference-IQA, RR-IQA)以及無參考圖像品質評估(No Reference-IQA, NR-IQA),NR-IQA也稱為盲參考圖像品質評估(Blind IQA, BIQA)。全參考圖像品質評估有原始圖像作為參考,通過對比失真圖像和原始圖像的資訊量或者某些次元的特征相似度來評估失真程度,難度較小。目前,很多成熟的方法和名額已被廣泛使用,例如均方誤差(MSE)、峰值信噪比(PSNR)、結構相似性(SSIM)等。FR-IQA常用于評估編解碼算法性能、圖像增強算法性能等場景,這些場景中天然地存在原始圖像可作為參考。

知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

圖3. 在FR-IQA的應用場景中(a)為參考圖像, (b)-(f)為失真圖像[1].

半參考圖像品質評估以原始圖像的部分資訊,或從原始圖像中提取的特征作為參考,難度介于全參考和無參考圖像品質評估之間。

現實中最常見的場景是,沒有參考圖像也沒有任何相關的資訊,此時隻能進行無參考圖像品質評估。由于沒有任何參考資訊,無參考圖像品質評估的難度最大。其核心在于,如何隻依賴圖像本身的資訊建構一個合理的評估名額,使其盡可能貼近人類視覺對圖像品質的感覺。在網絡圖像的品質評估場景中,不存在參考圖像,需要的正是無參考圖像品質評估算法。

資料瓶頸

圖像品質評估領域的資料集主要分為人工資料集和自然資料集。人工資料集是根據少量的真實圖像,模拟生成一種或多種不同類型、不同程度的失真來構成失真圖像資料集,常見的有TID2008、TID2013、LIVE、LIVEMD,其中TID2013規模最大,但也僅有來自25張參考圖像的共3000張失真圖像。人工資料集不僅規模小,更大的問題還在于失真類型過于單一,例如LIVEMD中雖然對每張參考圖像疊加了兩種不同的失真類型,但這與現實中的失真圖像相比還是太單一了。自然失真圖像的形成涉及許多複雜的因素,許多複雜的失真情況是難以通過人工模拟生成的,是以一些包含自然失真圖像的資料集逐漸出現,例如LIVEC、WaterLoo Exploration、KonIQ-10k等。借助網際網路衆包項目,自然失真圖像資料集規模正在逐漸擴大,但事實上擴充資料集的成本極高。圖像品質評估算法的資料集建構不同于其他任務,由于圖像品質概念存在主觀性,為了得到較為客觀的評分标簽,每一張圖像需要多人對其品質打分,最後取平均值(稱為“平均主觀意見得分”, MOS)作為标簽。這導緻标注成本比一般視覺任務高許多倍(通常是幾十倍甚至上百倍)。小規模的資料集能夠滿足早期的傳統圖像品質評估算法,但對于依賴資料驅動的深度學習算法而言,則顯得捉襟見肘。随着各個視覺任務對深度學習的廣泛應用,資料集規模和昂貴的标注成本已經成為制約圖像品質評估算法發展的瓶頸

無參考圖像品質評估算法

傳統的無參考圖像品質評估算法通過對失真圖像的一些特性來給出評估結果,不需要訓練資料,但需要對失真圖像的各種特性進行深入的研究,例如邊緣的擴散、平滑效果、高頻成分的減少或相位相幹性的損失等各種模糊特性。由于不同的失真類型在圖像上展現出不同的特點,最初的方法需要提前知道失真類型才能針對性地進行品質評估。例如一些方法通過對失真圖像計算梯度圖來表征圖像的模糊失真,随後提取梯度圖中與模糊失真相關的能量特征用于圖像品質的預測。這類方法本質上是人工捕捉圖像資訊中與失真相關的規律,是以十分依賴圖像資料的分布。當圖像的失真類型未知,或同時存在多種不同的失真時,這類方法就很難利用某種特殊的特征來完成圖像品質的評估。

**自然場景統計方法(Natural Scene Statistic, NSS)假設自然圖像共享某一些特定的統計特征,當圖像失真時,這些統計特征就會發生改變,這樣就能夠擺脫對先驗失真資訊的依賴。**例如自然圖像的離散餘弦變換系數分布呈現出脈沖狀,這會直接導緻熵值的差異,于是 BWS[2]采用Weibull模型來近似自然場景統計規則中的脈沖形狀現象以及尖峰和重尾現象,從中提取特征并使用SVR來對圖像品質進行評價;TCLT[3]進一步采用多通道融合的圖像特征來模拟人類視覺系統的層次性和三色性特征,并采用K近鄰模型來進行品質預測等。

雖然NSS方法在性能上獲得了很大提升,但是手工特征在表征複雜的圖像結構和失真資訊時仍然能力有限。和計算機視覺領域的其他任務一樣,圖像品質評估領域特征提取方法的發展也經曆了從手工特征到深度特征的過程。一般而言,深度學習特征相比手工設計的特征存在很大的優越性,但在圖像品質評估領域,資料集的标注成本比其他圖像任務高很多倍,導緻資料集規模通常都很小,訓練深度卷積網絡存在過拟合問題。

是以,**一類基于深度學習的算法直接利用圖像分類任務在大規模資料集上預訓練得到的網絡,來提取圖像特征,再利用這些特征進行後處理來得到最終的評估結果。**BLNDER[4]考慮到了不同網絡層對圖像品質相關特征的敏感程度不同,從預訓練好的VGG網絡中提取多個網絡層的特征表示來分别訓練SVR并預測每層特征的品質評分,最後取各層得分的平均值作為輸入圖像最終的品質評分(如圖4所示)。

知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

圖4. BLNDER從預訓練網絡的多個層提取特征

由于分類任務與品質評估任務之間的差異始終存在,如何擴大圖像品質評估資料集實作深度網絡端到端的有效訓練,依然是一個需要探索的方向。一種擴充方式是将原圖像分割成多個圖像塊,每個圖像塊采用原圖的标簽作為标簽,例如CNN[5]、DIQaM[6]等。這類方法的問題在于,雖然資料規模增加了,但标簽的準确性難以保證,因為圖像塊的品質與整體圖像的品質并不總是一緻的,正如圖2中隻包含背景區域的圖像塊和隻包含主體區域的圖像塊,顯然具有不同的品質評分。

是以DIQA[7]、BIECON[8]等方法結合了已有的全參考方法,在參考圖像存在的情況下為圖像塊生成新的标簽,當然這就引入了參考圖像的限制。

**另一種擴充資料集的方法是從整體圖像入手。**RankIQA [9]通過人工生成不同程度的失真圖像來擴充資料集,雖然沒有确定的品質得分标簽,但可以根據失真程度對圖像進行排序,從中抽取兩張圖像品質相對高低已知的圖像構成圖像對,來訓練一個雙生網絡,最後取單路網絡在小規模資料集上進行微調(如圖5所示)。

知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

圖5. RankIQ算法流程示意圖

HIQA則借助GAN來擴充參考圖像,讓無參考圖像評估跨越了沒有原始圖像作參照的鴻溝,如圖6所示。通過GAN生成失真圖像的參考圖像,并與失真圖像計算內插補點圖,作為品質回歸網絡的輸入來預測失真圖像的品質,極大地提升了無參考圖像品質評估模型的性能。

知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

圖6. HIQA算法流程示意圖

半監督訓練方法

面對失真情況複雜且海量的網際網路圖像資料,為保證模型的魯棒性,要求訓練資料具有更豐富多樣的失真類型。雖然RankIQA等方法通過人工模拟生成失真圖像擴大了資料集規模,但難以充分模拟現實場景下的多樣性。為了在不增加标注成本的前提下擴充訓練集,我們引入了半監督的訓練方法。

這類方法在圖像分類任務上通過利用大量無标簽資料獲得了顯著的性能提升,主要步驟包括:

(1)在小規模有标簽資料集上訓練獲得初步的教師模型;

(2)用教師模型為大規模的無标簽資料集生成僞标簽;

(3)篩選某個置信度範圍内的無标簽資料作為新的訓練集,篩選的目的是,在保證僞标簽相對可靠的同時,該資料對模型而言又具有一定的學習難度;

(4)用新的無标簽資料集訓練學生模型;

(5)在有标簽資料集上對學生模型進行微調。這類方法在圖像分類任務上取得了很大的提升,但應用到圖像品質評估任務上,存在三個主要問題,對此我們主要的解決方案如下:

知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

借助現有無監督預訓練參數和傳統算法的模型融合結果獲得初步的圖像品質評估能力,進一步采用半監督訓練方法擴充資料集,可以完全規避圖像品質評估資料集有标簽資料集規模太小的瓶頸,進而更好地發揮DNN模型在圖像任務上的優勢。

對大量真實網絡資料的應用,顯著擴大了模型訓練資料的多樣性,能夠有效促進模型評分貼近人類主觀感覺。與在小規模資料集上直接訓練模型得到的結果進行對比,經過半監督方法優化後的模型在包括但不限于以下幾種類型的資料上具有顯著的優勢:

  • 背景模糊但語義主體清晰的圖像,優化後的模型評分更高,更符合人類重點關注語義主體清晰度的特點:
    知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

    優化前:0.78

    優化後:0.94

知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

優化前:0.73

優化後:0.90

  • 圖像大片區域梯度變化較小時,傳統算法和優化前的DNN模型均傾向于給出較低的評分,但優化後更符合人類感覺特點:
    知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

    優化前:0.60

    優化後:0.93

知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

優化前:0.75

優化後:0.99

  • 圖像存在明顯的壓縮損失等失真,但由于本身紋理資訊豐富等原因,優化前的DNN模型均評分偏高,但優化後的模型評分更準确:
    知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

    優化前:0.59

    優化後:0.10

知物由學 | 告别挑花眼,AI算法如何篩選低品質圖檔?

優化前:0.47

優化後:0.09

此外,在解決上述三個關鍵問題後,更多在圖像分類任務獲得成功的半監督方法也可以進一步引入到圖像品質評估任務上進行更多的嘗試和探索。

後記

在網際網路圖像品質評估場景下,穩健的圖像品質評估模型可用于自動挑選品質較高的圖檔,配合美觀度評估等模型可以進一步拓展算法的應用場景:

一是,手機相冊中品質較低、較不美觀的照片可以通過算法自動篩選和删除;

二是,社交平台可以通過上述算法挑選出高品質的圖檔用于首頁推薦和展示,也可以對使用者上傳圖檔的品質進行及時檢測和提醒;

三是,在内容稽核環節為其他算法模型的輸入資料提供前置品質檢測功能。

半監督訓練政策通過拓展訓練資料規模,提高了模型的資料上限,讓模型面對海量且多樣的網際網路資料時,依然穩定可靠。

【參考文獻】

[1] Zhang, Lin, et al. “FSIM: A feature similarity indexfor image quality assessment.” IEEE transactions on ImageProcessing 20.8 (2011): 2378-2386.

[2] X. Yang, F. Li, W. Zhang, and L. He, ``Blind imagequality assessment of natural scenes based on entropy differences in the DCTdomain,’’ Entropy, vol. 20, no. 12, pp. 885_906, 2018.

[3] Q. Wu, H. Li, F. Meng, K. N. Ngan, B. Luo, C. Huang,and B. Zeng, ``Blind image quality assessment based on multichannel featurefusion and label transfer,’’ IEEE Trans. Circuits Syst. Video Technol.,vol. 26, no. 3, pp. 425_440, Mar. 2016.

[4] F. Gao, J. Yu, S. Zhu, Q. Huang, and Q. Tian, ``Blindimage quality prediction by exploiting multi-level deep representations,’’ PatternRecognit., vol. 81, pp. 432_442, Sep. 2018.

[5] L. Kang, P. Ye, Y. Li, and D. Doermann, ``Convolutionalneural networks for no-reference image quality assessment,’’ in Proc. IEEEConf. CVPR, Jun. 2014, pp. 1733_1740.

[6] S. Bosse, D. Maniry, K. R. Müller, T. Wiegand, and W.Samek, ``Deep neural networks for no-reference and full-reference image qualityassessment,’’ IEEE Trans. Image Process., vol. 27, no. 1, pp. 206_219,Jan. 2018.

[7] J. Kim, A.-D. Nguyen, and S. Lee, ``Deep CNN-basedblind image quality predictor,’’ IEEE Trans. Neural Netw. Learn. Syst.,vol. 30, no. 1, pp. 11_24, Jan. 2019.

[8] J. Kim and S. Lee, ``Fully deep blind image qualitypredictor,’’ IEEE J. Sel. Topics Signal Process., vol. 11, no. 1, pp.206_220, Feb. 2017.

[9] X. Liu, J. van de Weijer, and A. D. Bagdanov,``RankIQA: Learning from rankings for no-reference image quality assessment,’'in Proc. IEEE Conf. ICCV, Jun. 2017, pp. 1040_1049.

[10] K.-Y. Lin and G. Wang, ``Hallucinated-IQA:No-reference image quality assessment via adversarial learning,’’ in Proc.IEEE Conf. CVPR, Aug. 2018, pp. 732_741.

繼續閱讀