天天看點

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

視覺生産技術

這是2020.8.24開始的視覺AI訓練營第一天的打卡内容,這篇學習筆記是對視訊内容的複制。通過今天的學習,我重新認識了AI在圖像領域(或者說視覺領域)的應用。之前的我隻是學習深度學習,包括圖像識别等。現在我了解了如何将AI應用到生成圖像中去。

一、定義和分類

定義:通過一個/一系列視覺過程,産出新的視覺表達

  • 産出:人或機器能夠感覺的圖像視訊,而不是标簽或特征
  • 要求:新的,和輸入不一樣
  • 用AI實作傳統上設計師通過PS, MAYA等的工作

    分類:

  • 生成:從0到1
  • 拓展:從1到N
  • 摘要:從N到1,濃縮出主要資訊
  • 升維:從An到An+1,例如2D→3D
  • 增強/變換:從A到B
  • 插入/合成:A+B=C
  • 擦除:A-B=C
“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

二、通用基礎架構

  1. 請求:輸入參數、素材、草案、成品(能不能做一個差不多的?)、案例
  2. 分發:生産類型
    1. 通用生成:參數+素材
    2. 素材合成:參數+素材
    3. 照圖生圖:參數+素材+成品
    4. 視訊摘要:參數+素材+成品
    5. 編輯變換:參數+素材/案例
    6. 視覺拓展:參數+素材/案例
  3. 服務:視覺生産引擎(核心)
    1. 生成引擎:模型+知識
    2. 搜尋引擎:素材+案例,生成困難,搜尋比對到一個差不多的,做一些改動
  4. 響應:輸出圖像/視訊/3D

三、五個關鍵次元

  1. 滿足視覺、美學表現(可看):要生成狗,不能生成一個四不像
  2. 合乎語義、内容邏輯(合理):要生成一幅蒙娜麗莎,臉不能是阿凡達的臉
  3. 結果的豐富性(多樣):推薦頁不能生成得差不多
  4. 提供使用者預期的抓手(可控):使用者可以在每次生成中添加條件,而不是受随機噪聲的影響,不能滿足訴求
  5. 帶來使用者、商業價值(可用):學術界→工業界,可持續

四、精細了解——分割摳圖

  1. 難點:資料嚴重不足,标注成本高。例如要發絲精扣,扣半透明的婚紗,扣透明的玻璃杯。标一個圖是什麼和标一個圖中的特定細節所需時間和成本是不同的。
  2. 解題思路:
    • Semantic Segmentation:語義分割,隻要知道圖檔裡的是人

    Instance Segmentation:執行個體分割,還要知道這些人是誰

    Image Matting:透明度、邊緣精細度怎麼樣

    • 複雜問題拆解:粗mask估計+精準matting
    • 豐富資料樣本:設計圖像mask統一模型
  3. 模型架構
“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

五、視覺生成——架構流程

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

六、視訊生成——架構流程

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

七、視覺生成——視訊封面

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

八、視覺編輯——視訊植入

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術
“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

植入位檢測與定位:

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

九、視覺編輯——視訊内容擦除

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

去文字(台詞、智語等),去LOGO(台标、廣告等)

十、視覺編輯——畫幅變化

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

十一、視覺編輯——圖像尺寸變化

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

十二、視覺增強——視訊增強

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

十三、視覺增強——人臉修複增強

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

十四、視覺增強——視訊超分和插幀

老視訊高清化,在網絡條件不好的時候減少卡頓

十五、視覺增強——HDR色彩擴充

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

十六、視覺增強——風格遷移

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

一開始的GAN也可以做類似的事,但是整張圖檔一起變風格,而我們可能希望人的五官清晰一點,不要變成油畫的風格。

十七、視覺遷移——顔色拓展

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

十八、視覺制造——核心邏輯

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

十九、視覺制造——包裝幾何生成

“達摩院視覺AI技術應用探索”學習筆記視覺生産技術

繼續閱讀