達摩院視覺AI技術應用探索
此文章連結: https://tracytangyc.github.io/2020/0924_aliyun-visual-ai-class1/
簡介與了解
1.定義
視覺AI的工作有兩大部分:了解與生産。後者涉及三個步驟——一、輸入參數或素材;二、過程中生産視覺;三、産出素材或成品。
- 了解
進行圖像檢測、分割等。
- 生産
産生新的(和輸入不一樣的)視覺表達,相當于以技術實作設計師、美工等用PS完成的工作過程。
視覺表達是人或機器能夠感覺的圖像視訊,不是用于機器學習的标簽或特征。
2.分類
視覺生産的種類很多,以下以簡單的方式抽象叙述:
- 分割
語義/全景/摳圖
- 生成
制造/摘要/封面 從0到1
- 拓展
從1到N
- 摘要
從N到1
- 升維
從An到An+1
- 增強、變換
超分/色彩/幀率 從A到B
- 編輯
植入/擦除/互換 A-B=C
- 插入、合成
A+B=C
以上技術的成熟産品有:鹿班、畫蝶、視覺智能開放平台等,分别為公共或專有雲、用戶端應用等
而他們處理的内容有:
- 3D
- 視訊
- 圖像
通用基礎架構
-
請求 Request
輸入參數、素材、草案、成品、案例
-
分發 Dispatch
生産不同類型:
- 通用生成 General - 素材合成 Assemble - 照圖生圖 Imitate - 視訊摘要 Summary - 編輯變換 Edit - 視覺拓展 Extend
-
服務 Service
使用視覺生産引擎
- 生成引擎(模型與知識) - 搜尋引擎(素材與案例)
- 響應 Response
- 輸出圖像/視訊/3D 素材、成品、案例
五個關鍵次元
要把視覺生産技術投入工業應用,應當達到以下标準:
- 可看——滿足視覺/美學表現
- 合理——合乎語義/内容邏輯
- 多樣——保證結果的豐富性
- 可控——提供使用者預期的抓手
- 可用——帶來使用者/商業價值
視覺了解
視覺了解有以下過程:
- 識别——知道是什麼(人?物?)
- 檢測——識别+知道在哪(缺陷檢測、多目标檢測等)
- 分割——識别+檢測+知道每一個像素是什麼
分割的步驟非常重要,展現在分離複雜的背景和各種遮擋關系,或者提取發絲、镂空等部分。這項工序标注成本高且随精度成倍上升、資料需求量大。
分割摳圖
解題思路:拆解複雜問題為粗mask估計和精準mapping;設計豐富資料樣本作為統一模型
成果:可達到分割人的頭像、頭發、人臉等靜态分割;人物、動物、車輛、商品、動畫等視訊動态分割;天空、人物、物體等場景分割,并調整粒度。
視覺生成
1.鹿班
鹿班是一項針對平面圖像設計生成的大規模線上AI設計服務,源于阿裡巴巴内部,逐漸對外提供服務。包括理需求、定草圖、選狀态、調戲節、生成圖、評好壞的完整流程。鹿班始用于電商,依靠“照圖生圖”和“個性化設計”,配合AI場景設計能力,進行高效、低成本、美觀的場景智能美工。
2.視覺生成AlibabWood
AlibabWood專注于短視訊生成,同時具有劇本生成、智能文案、自動簡介、智能音樂推薦等功能,完成素材準備、基礎特效、智能特效、智能編排四大業内需求。
3.視訊摘要與封面
視訊摘要(封面生成)包括品質稽核、内容分析、圖像增強、輸出多幀靜止圖或動圖
視覺編輯
1.視訊植入
例如插入廣告等原視訊沒有的片段。當中需要進行廣告位檢測、跟蹤、避免螢幕内容遮擋、移位等,并比對視訊細節、光影渲染等,有利于大大挖掘視訊價值、擴大植入範圍、提高制作效率。
2.内容擦除
例如字幕、台标、廣告等擦除,基于精确的視覺分割技術。
3.尺寸變化
需要适配視訊畫幅比例改變而進行裁剪或補全,改變構圖,進行自動化圖像(海報等)多尺寸設計。
視覺增強
執行個體
- 人臉修複:突出主要特征資訊
- 渲染圖或視訊超分:用于CG,渲染低分辨率圖後用AI技術放大成高清圖,降低渲染時間
- 視訊插幀:減少運動場景的視訊晃動、線上視訊的卡頓感
- HDR色彩擴充:增強視覺效果,提升廣告等視訊表達語義的能力
- 風格遷移與顔色拓展:例如名畫濾鏡等
視覺制造
融合虛實畫面,提升生産(打樣、溝通)效率、協同性(設計、營銷、生成的配合)、定制化(柔性生産)。并結合2D、3D估計、渲染等生成技術。
視覺智能開放平台
網址:
vision.aliyun.com該平台聚合阿裡巴巴的圖像、視訊、3D圖形視覺原子能力,提供雲上智能API,向廣大開發者提供服務,有上百種細分能力,供應鍊、基礎設施、部署場景、定制化服務齊全。