天天看點

當達摩院大牛學會摳圖,這一切都不受控制了……我們為什麼要開始研究摳圖?遇到的難題和解決方案如何讓效果更精準?

​從達摩院宣布成立起,這個阿裡的“神秘機構”就備受外界關注。高端,神秘,這些标簽也讓我們對達摩院的技術專家産生了好奇。

在他人眼中,達摩院大多是奇人異士,做着神秘且高端的研究,如掃地僧一般的存在,但是如果有一天,當神秘專家不再神秘,你發現他們也開始玩摳圖,且這一切都朝着不受控制的方向發展。那麼摳圖他們能玩出哪些花樣?

你看看,萬物皆可摳!

當達摩院大牛學會摳圖,這一切都不受控制了……我們為什麼要開始研究摳圖?遇到的難題和解決方案如何讓效果更精準?
部分圖檔來源淘寶商品圖

我們為什麼要開始研究摳圖?

這要從阿裡巴巴智能設計實驗室自主研發的一款設計産品鹿班說起。鹿班的初衷是改變傳統的設計模式,使其在短時間内完成大量banner圖、海報圖和會場圖的設計,提高工作效率。商家上傳的寶貝圖參差不齊,直接投放效果不佳,通過鹿班制圖可以保證會場風格統一、高質視覺效果傳達,進而提升商品吸引力和買家視覺體驗,達到提升商品轉化率的目的。而在制圖的過程中,我們發現商品摳圖是一項不可避免且繁瑣的工作,一張人像精細摳圖平均需要耗費設計師2h以上的時間,這樣無需創意的純體力工作亟需被AI所取代,我們的摳圖算法應運而生。

近幾年圖像摳圖算法逐漸進入人們的視野。而潛藏在其背後的行業:泛文娛,電商行業、垂直行業,諸如線上餐飲、媒體、教育等行業商業價值不容小觑,可以滿足各種戰報、線上課程教師摳圖、視訊封面制作等不同形式的圖檔制作需求拓展。市面上的一些摳圖算法效果在人像發絲細節處理均不是很好,且對一些通用場景(電商等)支援也不是很好。我們針對這兩個問題一方面設計更具有泛化能力的系統、一方面深化發絲和高度镂空相關算法,均有更好的效果。

遇到的難題和解決方案

我們最開始在上手鹿班“批量摳圖”需求時,發現使用者上傳的圖像品質、來源、内容五花八門,想用一個模型實作業務效果達到一勞永逸很難。在經過對場景和資料的大量分析後,定制整體架構如下:

當達摩院大牛學會摳圖,這一切都不受控制了……我們為什麼要開始研究摳圖?遇到的難題和解決方案如何讓效果更精準?

主要涵蓋了過濾、分類、檢測、分割四個子產品:

過濾:濾掉差圖(過暗、過曝、模糊、遮擋等),主要用到分類模型和一些基礎圖像算法;

分類:瓶飲美妝等品類商品連通性比較好,3C、日用、玩具等品類則反之,另外場景(如人頭、人像、動物)需求也是各具差異,故而設計不同的分割模型提升效果;

檢測:在鹿班場景使用者資料多來自于商品圖,很多是經過高度設計的圖像,一圖多商品、多品類、主體占比小,也不乏文案、修飾、logo等備援資訊,增加一步檢測裁剪再做分割效果更精準;

分割:先進行一層粗分割得到大緻mask,再進行精細分割得到精确mask,這樣一方面可以提速,一方面也可以精确到發絲級;

如何讓效果更精準?

目前分類、檢測模型相對比較成熟,而評估模型則需要根據不同場景做一些定制(電商設計圖、天然攝影圖等),分割精度不足,是所有子產品中最薄弱的一個環節,是以成為了我們的主戰場。詳述如下:

分類模型:分類任務往往需要多輪的資料準備,模型優化,資料清洗才能夠落地使用。據此,我們設計完成了一個自動分類工具,融合最新的優化技術,并借鑒autoML的思想,在有限GPU資源的情況下做參數和模型搜尋,簡化分類任務中人員的參與,加速分類任務落地。

評估模型:直接使用回歸做分數拟合,訓練效果并不好。該場景下作為一個前序過濾任務,作為分類問題處理則比較合理。實際我們也采用一些傳統算法,協助進行過暗、過曝等判斷。

檢測模型:主要借鑒了FPN檢測架構。

對特征金字塔每一層featuremap都融合上下相鄰層特征,這樣輸出的特征潛在表征能力更強;

特征金字塔不同層特征分别預測,候選anchors可增加對尺度變化的魯棒性,提升小尺度區域召回;

對候選anchor的設定增加一些可預見的scale,在商品尺寸比例比較極端的情況下大幅提升普适性;

分割融合模型:

參考論文:

http://openaccess.thecvf.com/content_CVPR_2019/html/Zhang_A_Late_Fusion_CNN_for_Digital_Matting_CVPR_2019_paper.html

與傳統的隻需要分别前景、背景的圖像分割(segmentation)問題不同,高精度摳圖算法需要求出某一像素具體的透明度是多少,将一個離散的0-1分類問題變成[0, 1]之間的回歸問題。

在我們的工作中,針對圖像中某一個像素p,我們使用這樣一個式子來進行透明度預測:

當達摩院大牛學會摳圖,這一切都不受控制了……我們為什麼要開始研究摳圖?遇到的難題和解決方案如何讓效果更精準?
當達摩院大牛學會摳圖,這一切都不受控制了……我們為什麼要開始研究摳圖?遇到的難題和解決方案如何讓效果更精準?
當達摩院大牛學會摳圖,這一切都不受控制了……我們為什麼要開始研究摳圖?遇到的難題和解決方案如何讓效果更精準?

右圖中紅色部分即是被前背景機率包住的像素

融合網絡:由數個連續卷積層構成,它負責預測混合權重。注意,在圖像的實心區域,像素的前背景預測往往容易滿足這一條件,此時對求導恒為0,這一良好性質令融合網絡在訓練時可以自動“聚焦”于半透明區域。

應用産品化開放

得以商業應用的基礎是我們在應用層單點能力,如人像/人頭/人臉/頭發摳圖、商品摳圖、動物摳圖,後續還會逐漸支援卡通場景摳圖、服飾摳圖、全景摳圖等。據此我們也做了一些産品化工作,如鹿班的批量白底圖功能、E應用證件照/戰報/人物換背景(釘釘->我的->發現->小程式->畫蝶)等。

鹿班的批量白底圖功能:

https://luban.aliyun.com/web/gen-next/config?tag=cutout&title=%E6%89%B9%E9%87%8F%E7%99%BD%E5%BA%95%E5%9B%BE

試用位址:

https://ivpd.console.aliyun.com/api-image

接入說明:

https://help.aliyun.com/document_detail/139269.html

商務合作咨詢請戳連結:

https://page.aliyun.com/form/act854786621/index.htm

繼續閱讀