視覺AI訓練營-視覺生成技術視覺生産精細了解視覺生成視覺增強視覺制造總結一手

2020-11-26 23:50:00

視覺生産

- 定義

通過一個/一系列視覺過程，産出新的視覺表達

産出:人或機器能夠感覺的圖像視訊，而不是标簽或特征;

要求:新的，和輸入不一樣的

- 分類

分類	解釋
生成	從0到1
拓展	從1到0
摘要	從N到1
升維	從An到An+1
增強/變換	從A到B
插入/合成	A+B=C
擦除	A-B=C

- 通用架構

- 關鍵次元

次元
1	可看	滿足視覺/美學表現
2	合理	合乎語義/内容邏輯
3	多樣	保證結果的豐富性
4	可控	提供使用者預期的抓手
5	可用	帶來使用者/商業價值

精細了解

- 分割摳圖

1.識别：知道是什麼

2.檢測：識别+知道在哪兒

3.分割：識别+檢測+知道每一個像素是什麼

視覺分割是生産的必要前置步驟。唯能了解，方能生成。

- 難點

1.背景複雜 2.遮擋 3.發絲精摳 4.邊緣反色 5.透明材質 5.多尺度

- 解題方法

1、複雜問題拆解:粗mask估計+精準matting

2、豐富資料樣本:設計圖像mask統一模型

- 模型架構

STEP1:mask粗分割

STEP2:mask品質統一

STEP3:估計精确alpha

視覺生成

- 架構流程

- 視訊生成/編輯

- 視訊摘要

鏡頭分割/語音識别-->動作識别/音畫比對-->鏡頭篩選，邊界優化-->排序優化/音頻剪輯-->視訊合成

- 視訊封面

可以對視訊内容全自動完成品質稽核、内容分析與圖像增強，輸出多幀靜止或動圖。

- 視訊植入

挖掘視訊核心價值

擴充廣告曝光管道，創新廣告形式,提升使用者體驗。

擴大植入範圍覆寫

自動化批量處理視訊内容，挖掘海量短視訊、UGC内容等的廣告價值，擴大植入内容的覆寫面。

提升植入效果效率

取代手工後期，縮短植入周期，降低人力成本，給廣告招商留出充足時間，且不需要修改與流出媒資。

視覺增強

- 單點核心技術

人臉增強，去噪聲，通用場景超分,LDR升HDR，倍頻，去劃痕

- 複合應用技術

人臉修複，标清轉高清，LDR-HDR互轉，4K重生，(錄音帶）老片修複，端上實時增強

- 核心挑戰

分辨率，幀率，色彩

視覺制造

- 核心邏輯

- 主要應用場景

服裝幾何生成、紋理圖案遷移（3D）、視覺遷移及融合、多樣性拓展、2D 3D背景融合

總結一手

在這個人工智能已經普及的時代，各行各業都充斥着AI的身影。音視訊的剪輯衍生了許多新的機會與挑戰。算法與架構無疑是開門鑰匙，在對行業有較深的認知之後再進行學習便可事半功倍。