當達摩院大牛學會摳圖，這一切都不受控制了……

從達摩院宣布成立起，這個阿裡的“神秘機構”就備受外界關注。造福人類，世界第一，高端，神秘……等等這些标簽也讓我們對達摩院的技術專家産生了好奇。

在外界人眼中，達摩院人才濟濟，大多是奇人異士，做着神秘且高端的研究，有如掃地僧一般的存在，但是如果有一天，當神秘專家不再神秘，你發現他們也開始玩摳圖，且這一切都朝着不受控制的方向發展了的時候，那麼摳圖他們能玩出哪些花樣？

你看看，萬物皆可摳！

部分圖檔來源淘寶商品圖

換成視訊試試？可以！

我們為什麼要開始研究摳圖？

這要從阿裡巴巴智能設計實驗室自主研發的一款設計産品鹿班說起。鹿班的初衷是改變傳統的設計模式，使其在短時間内完成大量banner圖、海報圖和會場圖的設計，提高工作效率。商家上傳的寶貝圖參差不齊，直接投放效果不佳，通過鹿班制圖可以保證會場風格統一、高質視覺效果傳達，進而提升商品吸引力和買家視覺體驗，達到提升商品轉化率的目的。

而在制圖的過程中，我們發現商品摳圖是一項不可避免且繁瑣的工作，一張人像精細摳圖平均需要耗費設計師2h以上的時間，這樣無需創意的純體力工作亟需被AI所取代，我們的摳圖算法應運而生。

近幾年圖像摳圖算法逐漸進入人們的視野，如騰訊（天天P圖）、百度（人像摳圖、汽車分割）等。而潛藏在其背後的行業：泛文娛，電商行業、垂直行業，諸如線上餐飲、媒體、教育等行業商業價值不容小觑，可以滿足各種戰報、線上課程教師摳圖、視訊封面制作等不同形式的圖檔制作需求拓展。市面上的一些摳圖算法效果在人像發絲細節處理均不是很好，且對一些通用場景（電商等）支援也不是很好。我們針對這兩個問題一方面設計更具有泛化能力的系統、一方面深化發絲和高度镂空相關算法，均有更好的效果。

遇到的難題和解決方案

我們最開始在上手鹿班“批量摳圖”需求時，發現使用者上傳的圖像品質、來源、内容五花八門，想用一個模型實作業務效果達到一勞永逸很難。在經過對場景和資料的大量分析後，定制整體架構如下：

主要涵蓋了過濾、分類、檢測、分割四個子產品：

•過濾：濾掉差圖（過暗、過曝、模糊、遮擋等），主要用到分類模型和一些基礎圖像算法；

•分類：瓶飲美妝等品類商品連通性比較好，3C、日用、玩具等品類則反之，另外場景（如人頭、人像、動物）需求也是各具差異，故而設計不同的分割模型提升效果；

•檢測：在鹿班場景使用者資料多來自于商品圖，很多是經過高度設計的圖像，一圖多商品、多品類、主體占比小，也不乏文案、修飾、logo等備援資訊，增加一步檢測裁剪再做分割效果更精準；

•分割：先進行一層粗分割得到大緻mask，再進行精細分割得到精确mask，這樣一方面可以提速，一方面也可以精确到發絲級；

如何讓效果更精準？

目前分類、檢測模型相對比較成熟，而評估模型則需要根據不同場景做一些定制（電商設計圖、天然攝影圖等），分割精度不足，是所有子產品中最薄弱的一個環節，是以成為了我們的主戰場。詳述如下：

•分類模型：分類任務往往需要多輪的資料準備，模型優化，資料清洗才能夠落地使用。據此，我們設計完成了一個自動分類工具，融合最新的優化技術，并借鑒autoML的思想，在有限GPU資源的情況下做參數和模型搜尋，簡化分類任務中人員的參與，加速分類任務落地。

•評估模型：直接使用回歸做分數拟合，訓練效果并不好。該場景下作為一個前序過濾任務，作為分類問題處理則比較合理。實際我們也采用一些傳統算法，協助進行過暗、過曝等判斷。

•檢測模型：主要借鑒了FPN檢測架構。

1、對特征金字塔每一層featuremap都融合上下相鄰層特征，這樣輸出的特征潛在表征能力更強；

2、特征金字塔不同層特征分别預測，候選anchors可增加對尺度變化的魯棒性，提升小尺度區域召回；

3、對候選anchor的設定增加一些可預見的scale，在商品尺寸比例比較極端的情況下大幅提升普适性；

•分割融合模型：參考論文

http://openaccess.thecvf.com/content_CVPR_2019/html/Zhang_A_Late_Fusion_CNN_for_Digital_Matting_CVPR_2019_paper.html

與傳統的隻需要分别前景、背景的圖像分割（segmentation）問題不同，高精度摳圖算法需要求出某一像素具體的透明度是多少，将一個離散的0-1分類問題變成[0, 1]之間的回歸問題。

在我們的工作中，針對圖像中某一個像素p，我們使用這樣一個式子來進行透明度預測：

其中

當達摩院大牛學會摳圖，這一切都不受控制了……

和

當達摩院大牛學會摳圖，這一切都不受控制了……

分别代表了這個像素屬于前景和背景的機率，

當達摩院大牛學會摳圖，這一切都不受控制了……

是混合權重。我們的網絡可整體分為兩部分，分割網絡和融合網絡，如下圖：

分割網絡：我們使用了在圖像分割任務中常用的編-解碼器結構作為我們的基礎結構，但與傳統結構不同，我們的網絡中使用了雙解碼器分别來預測前、背景機率

當達摩院大牛學會摳圖，這一切都不受控制了……

。如果像素p在圖像的實心區域（透明度為0或1），我們預測像素透明度的真實值；如果p在圖像的半透明區域（透明度值在0到1之間），我們預測像素透明度真實值的上下界。通過在半透明區域使用權重的交叉熵損失函數，使

當達摩院大牛學會摳圖，這一切都不受控制了……

的值相應升高，即可将透明度的真實值“包裹”!

在

這一區間中。!

右圖中紅色部分即是被前背景機率包住的像素!

融合網絡：由數個連續卷積層構成，它負責預測混合權重

當達摩院大牛學會摳圖，這一切都不受控制了……

。注意，在圖像的實心區域，像素的前背景預測往往容易滿足

這一條件，此時

當達摩院大牛學會摳圖，這一切都不受控制了……

對

當達摩院大牛學會摳圖，這一切都不受控制了……

求導恒為0，這一良好性質令融合網絡在訓練時可以自動“聚焦”于半透明區域。

應用産品化開放

得以商業應用的基礎是我們在應用層單點能力，如人像/人頭/人臉/頭發摳圖、商品摳圖、動物摳圖，後續還會逐漸支援卡通場景摳圖、服飾摳圖、全景摳圖等。據此我們也做了一些産品化工作，如

鹿班的批量白底圖功能

、E應用證件照/戰報/人物換背景（釘釘->我的->發現->小程式->畫蝶）等。

試用位址：

https://ivpd.console.aliyun.com/api-image

接入說明：

https://help.aliyun.com/document_detail/139269.html

商務合作咨詢請戳連結：

https://page.aliyun.com/form/act854786621/index.htm

當達摩院大牛學會摳圖，這一切都不受控制了……

你看看，萬物皆可摳！

換成視訊試試？可以！

我們為什麼要開始研究摳圖？

遇到的難題和解決方案

應用産品化開放

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

工廠模式-三種類型

hdu7108哈希