天天看點

Class 1 | 達摩院特别版-視覺AI訓練營達摩院視覺AI技術應用探索

達摩院視覺AI技術應用探索

此文章連結: https://tracytangyc.github.io/2020/0924_aliyun-visual-ai-class1/

簡介與了解

1.定義

視覺AI的工作有兩大部分:了解與生産。後者涉及三個步驟——一、輸入參數或素材;二、過程中生産視覺;三、産出素材或成品。

  • 了解
    進行圖像檢測、分割等。
               
  • 生産
    産生新的(和輸入不一樣的)視覺表達,相當于以技術實作設計師、美工等用PS完成的工作過程。
               
視覺表達是人或機器能夠感覺的圖像視訊,不是用于機器學習的标簽或特征。

2.分類

視覺生産的種類很多,以下以簡單的方式抽象叙述:

  • 分割
    語義/全景/摳圖
               
  • 生成
    制造/摘要/封面
    從0到1
               
  • 拓展
    從1到N
               
  • 摘要
    從N到1
               
  • 升維
    從An到An+1
               
  • 增強、變換
    超分/色彩/幀率
    從A到B
               
  • 編輯
    植入/擦除/互換
    A-B=C
               
  • 插入、合成
    A+B=C
    
               
以上技術的成熟産品有:鹿班、畫蝶、視覺智能開放平台等,分别為公共或專有雲、用戶端應用等

而他們處理的内容有:

  • 3D
  • 視訊
  • 圖像

通用基礎架構

  1. 請求 Request

    輸入參數、素材、草案、成品、案例

  2. 分發 Dispatch

    生産不同類型:

    - 通用生成 General
    - 素材合成 Assemble
    - 照圖生圖 Imitate
    - 視訊摘要 Summary
    - 編輯變換 Edit
    - 視覺拓展 Extend
               
  3. 服務 Service

    使用視覺生産引擎

    - 生成引擎(模型與知識)
    - 搜尋引擎(素材與案例)
               
  4. 響應 Response
    • 輸出圖像/視訊/3D 素材、成品、案例

五個關鍵次元

要把視覺生産技術投入工業應用,應當達到以下标準:

  1. 可看——滿足視覺/美學表現
  2. 合理——合乎語義/内容邏輯
  3. 多樣——保證結果的豐富性
  4. 可控——提供使用者預期的抓手
  5. 可用——帶來使用者/商業價值

視覺了解

視覺了解有以下過程:

  • 識别——知道是什麼(人?物?)
  • 檢測——識别+知道在哪(缺陷檢測、多目标檢測等)
  • 分割——識别+檢測+知道每一個像素是什麼
    分割的步驟非常重要,展現在分離複雜的背景和各種遮擋關系,或者提取發絲、镂空等部分。這項工序标注成本高且随精度成倍上升、資料需求量大。
               

分割摳圖

解題思路:拆解複雜問題為粗mask估計和精準mapping;設計豐富資料樣本作為統一模型

成果:可達到分割人的頭像、頭發、人臉等靜态分割;人物、動物、車輛、商品、動畫等視訊動态分割;天空、人物、物體等場景分割,并調整粒度。

視覺生成

1.鹿班

鹿班是一項針對平面圖像設計生成的大規模線上AI設計服務,源于阿裡巴巴内部,逐漸對外提供服務。包括理需求、定草圖、選狀态、調戲節、生成圖、評好壞的完整流程。鹿班始用于電商,依靠“照圖生圖”和“個性化設計”,配合AI場景設計能力,進行高效、低成本、美觀的場景智能美工。

2.視覺生成AlibabWood

AlibabWood專注于短視訊生成,同時具有劇本生成、智能文案、自動簡介、智能音樂推薦等功能,完成素材準備、基礎特效、智能特效、智能編排四大業内需求。

3.視訊摘要與封面

視訊摘要(封面生成)包括品質稽核、内容分析、圖像增強、輸出多幀靜止圖或動圖

視覺編輯

1.視訊植入

例如插入廣告等原視訊沒有的片段。當中需要進行廣告位檢測、跟蹤、避免螢幕内容遮擋、移位等,并比對視訊細節、光影渲染等,有利于大大挖掘視訊價值、擴大植入範圍、提高制作效率。

2.内容擦除

例如字幕、台标、廣告等擦除,基于精确的視覺分割技術。

3.尺寸變化

需要适配視訊畫幅比例改變而進行裁剪或補全,改變構圖,進行自動化圖像(海報等)多尺寸設計。

視覺增強

執行個體

  1. 人臉修複:突出主要特征資訊
  2. 渲染圖或視訊超分:用于CG,渲染低分辨率圖後用AI技術放大成高清圖,降低渲染時間
  3. 視訊插幀:減少運動場景的視訊晃動、線上視訊的卡頓感
  4. HDR色彩擴充:增強視覺效果,提升廣告等視訊表達語義的能力
  5. 風格遷移與顔色拓展:例如名畫濾鏡等

視覺制造

融合虛實畫面,提升生産(打樣、溝通)效率、協同性(設計、營銷、生成的配合)、定制化(柔性生産)。并結合2D、3D估計、渲染等生成技術。

視覺智能開放平台

網址:

vision.aliyun.com

該平台聚合阿裡巴巴的圖像、視訊、3D圖形視覺原子能力,提供雲上智能API,向廣大開發者提供服務,有上百種細分能力,供應鍊、基礎設施、部署場景、定制化服務齊全。

繼續閱讀