--------點選螢幕右側或者螢幕底部“+訂閱”,關注我,随時分享機器智能最新行業動态及技術幹貨----------
視覺生産技術探索和應用
一、視覺生産簡介與了解
(一)定義
就視覺而言一般來說有兩大類:一類是視覺了解,比如檢測、分割等;另外一類是視覺生産,也可以了解為怎麼去産生視覺,指通過一個/一系列視覺過程,産出新的視覺表達。如下圖所示,有兩點需要注意,一是這裡的視覺表達指的是人或機器能夠感覺的圖像視訊,而不是标簽或特征,二是産出新的視覺表達,和輸入是不一樣的視覺表達。在過去,圖中所示的過程大多數由人來完成,比如設計師、美工等用 PS 等工具完成,現在,我們希望通過技術能夠實作這個過程。

(二)分類
如下圖所示,視覺生産主要包括生成、拓展、摘要、升維,另外還有增強/變換、插入/合成、擦除等。達摩院在該領域已經投入了很多人力和精力,也形成了一些産品,比如鹿班、畫蝶、視覺智能開放平台等。
(三)通用基礎架構
視覺生産有自己基本的通用架構,如下圖所示。可能在細節上有細微不同,但是一般來講其邏輯是類似的,包括請求(Request)、分發(Dispatch)、服務(Service)和響應(Response)四大部分。
(四)五個關鍵次元
如下圖所示,要保證視覺生産有一個好的結果或者說可用的結果,其至少應滿足可看、合理、多樣、可控、可用五個次元,隻有這樣,才能在工業界産生真正的價值,而不僅僅是一個停留于理論的技術。
二、精細了解——尋微入裡
如果想生産一個視覺,首先我們要了解輸入的視覺,也就是需要精細的了解視覺。“了解”其實包括如下幾個過程:
- 識别:知道是什麼,比如人的識别、物的識别;
- 檢測:識别+知道在哪,比如缺陷檢測、多目标檢測;
- 分割:識别+檢測+知道每一個像素是什麼。
其中,視覺分割是生産的必要前置步驟,也是學術界和工業界的一個熱點,同時也是難點,因為進行分割時往往有複雜的背景和各種遮擋關系,或者在分割時對其要求非常高,比如發絲級、镂空等,另外還可能面臨邊緣發色、透明材質、多目标/多尺度進行分割等問題。實際上,分割時遇到的這些難題歸根到底是标注成本高、資料嚴重不足的問題,更進一步,即使标注出來了,但是想要精細得将其分割出來,成本是成倍增加的。
(一)分割摳圖解題思路
如下圖所示,分割摳圖包括不同的層次,從語義分割到執行個體分割再到 Image Matting。
整體來說分割摳圖的過程是比較複雜的,總的來說我們的思路是先拆解再豐富資料樣本,其架構如下圖所示。
(二)分割摳圖效果展示
如下圖所示,通過上面的技術我們在發絲級的分割和镂空細節特殊場景等例子中取得了較好的效果。目前,在阿裡巴巴内部分割摳圖技術是使用最廣的視覺 AI 技術。
基于分割摳圖技術,我們可以對分割進行拓展,進行多式多樣的分割,比如對人的分割,可以從圖像中分割出人的頭像、單獨分割出頭發、單獨分割出人臉等,更進一步,除了靜态圖像的分割,我們甚至對視訊進行分割,在動态的視訊中提取人物。類似的,對于動物分割、車輛分割、商品分割、動畫分割等,我們也可以進行相應的拓展,來豐富我們的分割粒度。另外的,對于場景摳圖,比如天空分割,我們把天空分割出來的同時把人物、物體等分割出來,進行場景分割的拓展。
三、視覺生成——從無到有
在完成分割之後,我們對視覺有了精細的了解,才能夠進行下一步的工作。
(一)視覺生成——鹿班
最早的時候我們做了産品鹿班。鹿班是視覺生成領域在業界落地的先行者,對外提供大規模線上的AI設計服務。它是針對平面圖像設計生成的産品,一開始在阿裡巴巴内部大規模使用,目前已經通過阿裡巴巴的雲服務對外提供服務。鹿班的視覺生成的架構流程如下圖所示,其大概過程包括理需求、定草圖、選狀态、調細節、生成圖、評好壞 6 個步驟。
鹿班在多個領域有着廣泛的應用,一開始是在電商領域,主要有以下兩個能力:
- 照圖生圖:參考原圖,将風格、布局等資訊學習并遷移到目标資料上;
- 個性化設計:多元化設計風格,結合商品品類、投放場景、目标客群的差異進行定制化設計。
如下圖所示,鹿班還可以用來做場景智能美工,用AI實作場景設計能力,大大降低人力成本。
當然,鹿班的應用不僅是以上幾個行業,它在各行各業都有着廣泛的應用,并且在各個行業的應用都會産生不同的效果,依據場景來進行賦能。
(二)視覺生成——AlibabWood
鹿班主要針對的是平面圖生成,但是實際上更多場景需要的是視訊生成,比如目前流行的短視訊,對此阿裡巴巴也設計了 AlibabWood 這款産品,專注于短視訊的生成,目前已經累計生成了超過 2000 萬個短視訊,同時還有劇本生成、智能文案生成、自動剪輯、智能音樂推薦等實用功能。AlibabWood 的架構流程如下圖所示,總體包括素材準備、基礎特效、智能特效和智能編排四大步驟,包括了衆多技術在内。
AlibabWood 有着衆多應用案例,比如場景化智能視訊的生成,還可以規模化生成特效視訊,當然,如下圖所示,在生成了視訊之後,如果有多個視訊,還可以進行視訊摘要的生成以及考慮旁白完整性的智能視訊集錦。
視訊封面的生成也是一個重要的應用,如下圖所示,它可以對視訊内容全自動完成品質稽核、内容分析與圖像增強,輸出多幀靜止或者動圖,這個過程用到了圖像增強、内容分析等技術,也是在視訊生成之後一個非常重要的技術應用。
四、視覺編輯——移花接木
一個視訊,能不能變成另外一個?這就要用到視訊編輯技術,主要包括增删查改等功能。
(一)視訊植入
視訊植入就是在視訊中加入一些本來沒有的内容,如下圖所示,目前其應用最廣泛的就是廣告界。
如下圖所示,視訊植入是一項非常複雜的技術,需要考慮到方方面面,比如廣告位檢測、廣告位跟蹤等等,,有時會遇到遮擋、移出螢幕等複雜情況跟蹤,而且在視訊植入之後還要考慮廣告是否能夠跟視訊細節比對、光影渲染等問題。
(二)視覺内容擦除
上面視訊植入是增加一些東西到視訊中,有時候我們也要從視訊中擦除一些東西,比如字母擦除、台标擦除、廣告擦除等等,其核心挑戰是分割,隻有更精确的分割才能夠精确的擦除。
(三)畫幅變化
有些時候我們需要對視訊進行修改,比如某段視訊在拍攝的時候是在 4:3 的情況下進行的,在 ipad、PC、手機上面播放的時候出現了尺寸不比對的情況,這時候就要進行畫幅變化,變化之後為了有完整的視覺效果,需要進行内容補全,如下圖所示。
(四)圖像尺寸變化
為了節省時間和精力,我們還可以進行圖像尺寸的自動變化,這樣子在某一個場景下設計的海報就可以更友善的用在其他場景中。
五、視覺增強——修舊如新
視覺增強就是對視訊的内容進行一些改變,以達到視訊某些方面的改善效果。
(一)視訊增強
對視訊效果的增強稱為視訊增強,如下圖所示,它包括很多技術在内,包括單點核心技術和複合應用技術。
(一)視覺增強執行個體
人臉修複
人臉是最重要的目标對象,對人像進行細節修複增強,有很重要的意義和價值,如下圖所示,可以用視覺增強技術對人臉進行修複增強,突出主要資訊。
a、渲染圖超分
CG 渲染時間幾乎與圖像分辨率成正比,高品質真實感渲染需要 30 分鐘才能生産一張圖像,針對 CG 渲染流水線研發的超分辨率技術可以把低分辨率圖像放大到與高清原圖一樣的清晰度。
b、視訊超分
除了對圖像進行超分外,我們還可以對視訊進行超分,使得視訊更加清晰,增加顯示效果。
c、視訊插幀
對視訊進行插幀,一般的視訊可能感受不到效果,但是在運動的場景、網絡不好的線上視訊等場景,對視訊進行插幀可以有效的減少視訊的卡頓感。
d、HDR 色彩擴充
除了幀率之外,色彩也是一個很重要的元素,也是視訊高清的一個必要條件,運用視覺增強技術可以很好進行HDR 色彩擴充,增強視訊顯示效果。
e、風格遷移與顔色拓展
視覺增強還可以用來進行風格遷移,比如某些相機軟體,可以将一些名畫的風格遷移到使用者所拍攝的照片上,實作照片的風格多樣化。
另外,視覺增強還可以進行顔色的拓展,比如下圖所示的廣告,可以同時産生不同色彩搭配的廣告,滿足不同的需求和色彩的多樣性。
六、視覺制造——由虛入實
前面所講的基本上都是數字内容,那麼能否将虛拟的和實體的關聯起來呢?當然是可以的,比如下圖所示的包裝設計和服裝設計兩個例子,我們可以利用視覺制造技術來解決實際生産過程中面臨的效率低、協同差、定制難等問題。
視覺制造的核心邏輯如下圖所示。
上面整個過程的用到了多種技術,比如包裝幾何生成、服裝幾何生成、材質紋理的多樣化生成、視覺遷移及融合、多樣性拓展等等。如下圖所示,在得到物體或者商品的模型之後,利用 2D3D 融合,還可以将其與背景或者其他商品結合在一起,直接渲染效果圖和商品的打樣工作。同時,我們還可以完成從 3D 到 2D 的轉換,形成一個閉環,對行業效率有了大大的提升。
七、視覺智能開放平台——萬劍歸宗
上面所提到的技術都可以在阿裡巴巴的視覺智能開放平台(vision.aliyun.com)上找到,感興趣的可以去嘗試一下。
目前,該平台已經開放了2個多月,主要包含了如下圖所示的多種能力,包括圖像的和視訊的,有100多種細分能力,實作了場景的全面覆寫。
該平台擁有專業、實用、全面、易用4大特點,并且可以進行一站式能力選擇。
除此之外,視覺智能開放平台在公共雲和專有雲上都提供了多項服務,有着強大的供應鍊平台和基礎設施,可以為使用者提供省心省力的普惠服務。
如下圖所示,針對一些場景,視覺智能開放平台提供了完整的場景解決方案,比如公共場所口罩佩戴檢測系統(神荼)、視訊自動廣告植入系統、服飾趨勢分析與輔助設計等等。
更多的方法和執行個體大家可以點選 👉
視覺智能開放平台官網👈 檢視和詳細了解。
原文連結:
https://developer.aliyun.com/article/763406