視覺生産技術
這是2020.8.24開始的視覺AI訓練營第一天的打卡内容,這篇學習筆記是對視訊内容的複制。通過今天的學習,我重新認識了AI在圖像領域(或者說視覺領域)的應用。之前的我隻是學習深度學習,包括圖像識别等。現在我了解了如何将AI應用到生成圖像中去。
一、定義和分類
定義:通過一個/一系列視覺過程,産出新的視覺表達
- 産出:人或機器能夠感覺的圖像視訊,而不是标簽或特征
- 要求:新的,和輸入不一樣
-
用AI實作傳統上設計師通過PS, MAYA等的工作
分類:
- 生成:從0到1
- 拓展:從1到N
- 摘要:從N到1,濃縮出主要資訊
- 升維:從An到An+1,例如2D→3D
- 增強/變換:從A到B
- 插入/合成:A+B=C
- 擦除:A-B=C

二、通用基礎架構
- 請求:輸入參數、素材、草案、成品(能不能做一個差不多的?)、案例
- 分發:生産類型
- 通用生成:參數+素材
- 素材合成:參數+素材
- 照圖生圖:參數+素材+成品
- 視訊摘要:參數+素材+成品
- 編輯變換:參數+素材/案例
- 視覺拓展:參數+素材/案例
- 服務:視覺生産引擎(核心)
- 生成引擎:模型+知識
- 搜尋引擎:素材+案例,生成困難,搜尋比對到一個差不多的,做一些改動
- 響應:輸出圖像/視訊/3D
三、五個關鍵次元
- 滿足視覺、美學表現(可看):要生成狗,不能生成一個四不像
- 合乎語義、内容邏輯(合理):要生成一幅蒙娜麗莎,臉不能是阿凡達的臉
- 結果的豐富性(多樣):推薦頁不能生成得差不多
- 提供使用者預期的抓手(可控):使用者可以在每次生成中添加條件,而不是受随機噪聲的影響,不能滿足訴求
- 帶來使用者、商業價值(可用):學術界→工業界,可持續
四、精細了解——分割摳圖
- 難點:資料嚴重不足,标注成本高。例如要發絲精扣,扣半透明的婚紗,扣透明的玻璃杯。标一個圖是什麼和标一個圖中的特定細節所需時間和成本是不同的。
- 解題思路:
- Semantic Segmentation:語義分割,隻要知道圖檔裡的是人
Instance Segmentation:執行個體分割,還要知道這些人是誰
Image Matting:透明度、邊緣精細度怎麼樣
- 複雜問題拆解:粗mask估計+精準matting
- 豐富資料樣本:設計圖像mask統一模型
- 模型架構
五、視覺生成——架構流程
六、視訊生成——架構流程
七、視覺生成——視訊封面
八、視覺編輯——視訊植入
植入位檢測與定位:
九、視覺編輯——視訊内容擦除
去文字(台詞、智語等),去LOGO(台标、廣告等)
十、視覺編輯——畫幅變化
十一、視覺編輯——圖像尺寸變化
十二、視覺增強——視訊增強
十三、視覺增強——人臉修複增強
十四、視覺增強——視訊超分和插幀
老視訊高清化,在網絡條件不好的時候減少卡頓
十五、視覺增強——HDR色彩擴充
十六、視覺增強——風格遷移
一開始的GAN也可以做類似的事,但是整張圖檔一起變風格,而我們可能希望人的五官清晰一點,不要變成油畫的風格。