天天看點

達摩院探訪,機器視覺之發絲級摳圖技能解析?蛻變破繭化蝶

  文章結尾有2020阿裡雲峰會介紹,不要錯過喲~ 2020雲峰會傳送門

  視覺技術作為人工智能之眼還在不斷地認識世界,認識的事物從少到多,從模糊到清晰,從認識到了解。每一階段都是一座裡程碑,從人工智能流行之初,達摩院就對這個人工智能之眼有着深厚的興趣。本次向大家介紹,達摩院之計算機視網膜修複工程。

  摳圖(matting)-作為計算機視覺了解認識事物的第一步,指的是從圖檔中精确分割出其中的目标區域,計算機視覺需要從平面,3D等影像中扣出它需要認識的區域并且加以識别,而摳圖的精度則是其識别準确度的基礎,就像手不是人,車輪不是汽車,雲不是天空一樣,很好了解。摳圖的精度通常要求達到發絲級處理精度,而傳統的摳圖,需要輸入額外的語義資訊作限制,通常為trimap(前景、背景和不确定區域),且互動成本都極大。

達摩院探訪,機器視覺之發絲級摳圖技能解析?蛻變破繭化蝶
  達摩院又是如何走出從優化到應用的這一質變的過程?

蛻變

  傳統摳圖是互動式摳圖,要求輸入trimap作為限制,即已包含有較準備的語義資訊,如下圖2(b)所示,所需估計的是trimap中的灰色區域。對于無互動的人像摳圖,則是直接從輸入圖像中不帶任何限制地估計正确的語義資訊及精準的alpha細節。提升模型效果的一個重大因素即大量精準标注的訓練資料,如果訓練資料不充分或分布不均,極容易導緻估計的語義資訊不準進而影響最後摳圖結果的精度,如下圖2(d)所示。據此,達摩院提出了一種在不降低訓練效果前提下最大限度降低資料标注成本的方法,該方法使用了擷取成本較低的粗标注資料,以及部分精度較高的标注資料,實驗結果表明該模型的可以更好的估計語義資訊,同時對發絲細節的處理精度也很好,如下圖2(e)所示。

達摩院探訪,機器視覺之發絲級摳圖技能解析?蛻變破繭化蝶

圖2:(a)輸入圖;(b)trimap(前景、背景、不确定區域);(c)Deep Image Matting結果;(d)不使用粗标注資料結果;(e)同時使用粗标注資料和精确标注資料結果;(f)真實值。

破繭

  為了在精确摳圖中使用非精确标注的資料,達摩院提出了如下的網絡架構。提出的模型架構分為三部分:粗mask估計網絡(MPN)、品質統一化網絡(QUN),以及精确alpha matte估計網絡(MRN)。該部分的設計理念為:複雜問題拆解,先粗分割(MPN)再精細化分割(MRN)。學術界有大量易擷取的粗分割資料,可以利用起來。但在實操過程中發現,粗分割資料和精分割資料不一緻導緻預期GAP很大,故而又設計了品質統一化網絡(QUN)。MPN的用途是估計粗語義資訊(粗mask),使用粗标注資料和精标注資料一起訓練。QUN是品質統一化網絡,用以規範粗mask品質,QUN可以統一MPN輸出的粗mask品質。MRN網絡輸入原圖和經過QUN規範化後的粗mask,估計精确的alpha matte,使用精确标注資料訓練。

達摩院探訪,機器視覺之發絲級摳圖技能解析?蛻變破繭化蝶

圖3:算法架構圖。算法架構包括三個部分:MPN,粗mask估計網絡;QUN,mask品質規範化網絡;MRN,精确alpha matte估計網絡

實驗結果

  Baseline的對比:對比方法包括傳統的matting方法以及最新基于神經網絡的方法。訓練資料中包括一半精标注資料,一半粗标注資料。對比方法(除deeplab)由于算法限制隻能使用精标注資料,因而隻使用了精标注資料訓練。而達摩院的方法分别用隻使用精标注資料以及同時使用精标注資料和粗标注資料進行了實驗。如下圖4結果表明,達摩院的方法在使用了粗标注資料之後,對複雜case的語義資訊估計的要更準确,同時細節資訊也估計的更好。

達摩院探訪,機器視覺之發絲級摳圖技能解析?蛻變破繭化蝶

圖4: 實驗結果對比圖

  在真實圖檔結果的測試結果如下:

達摩院探訪,機器視覺之發絲級摳圖技能解析?蛻變破繭化蝶

圖5:真實應用場景下人像摳圖的效果

  達摩院的方法還可以應用到資料的精細化中,如果給定了粗mask,輸入達摩院的QUN+MRN網絡,可以直接得到精細化之後的資料,如下圖6所示,達摩院分别對公開資料集coco和pascal中的人像資料做了精細化。另外,達摩院也将達摩院的方法應用到其他類目的分割當中去,如商品分割、頭像分割等,也取得了不錯的效果,如圖7所示。

達摩院探訪,機器視覺之發絲級摳圖技能解析?蛻變破繭化蝶

圖6: 粗标注資料用達摩院網絡進行refine後的結果

達摩院探訪,機器視覺之發絲級摳圖技能解析?蛻變破繭化蝶

圖7: 其他場景的分割效果

化蝶

  當一個技術在精度上有了質的提升,并且解決了成本問題,那麼它就達到了應用的門檻,達摩院将上述方法拓展到了商品、動物、汽車等行業做主體分割,并将技術落地成應用遍布市場,單阿裡巴巴集團内已覆寫9大BU(優酷、淘寶、天貓、CBU/ICBU、阿裡健康、Lazada、視訊雲、釘釘、支付寶)9大BU,魯班場景的商品摳圖轉化率高達80%+。

  阿裡雲視覺AI開發者創意應用賽向社會各界免費開放所有視覺AI技術接口,如人像分割、商品分割、頭像摳圖等。開發者可以任意使用達摩院的技術打磨自己的産品,或者将自己的産品在大賽中展出,作為主辦方,阿裡雲将會為優秀的作品對接創業資源和孵化環境,更有總計近百萬的獎金和獎品等你來拿。

體驗位址:

https://vision.aliyun.com/experience

大賽平台:

https://developer.aliyun.com/ai/activity/viapi?spm=a211p3.14921014.J_2252694630.5.514a46a07ZMiqM

此外,平台将在2020雲峰會上重磅釋出超百種AI能力,快來掃碼觀看吧!

達摩院探訪,機器視覺之發絲級摳圖技能解析?蛻變破繭化蝶

繼續閱讀