視覺生産
- 定義
- 通過一個/一系列視覺過程,産出新的視覺表達
産出:人或機器能夠感覺的圖像視訊,而不是标簽或特征;
要求:新的,和輸入不一樣的

- 分類
分類 | 解釋 |
---|---|
生成 | 從0到1 |
拓展 | 從1到0 |
摘要 | 從N到1 |
升維 | 從An到An+1 |
增強/變換 | 從A到B |
插入/合成 | A+B=C |
擦除 | A-B=C |
- 通用架構
- 關鍵次元
次元 | ||
---|---|---|
1 | 可看 | 滿足視覺/美學表現 |
2 | 合理 | 合乎語義/内容邏輯 |
3 | 多樣 | 保證結果的豐富性 |
4 | 可控 | 提供使用者預期的抓手 |
5 | 可用 | 帶來使用者/商業價值 |
精細了解
- 分割摳圖
-
1.識别:知道是什麼
2.檢測:識别+知道在哪兒
3.分割:識别+檢測+知道每一個像素是什麼
視覺分割是生産的必要前置步驟。唯能了解,方能生成。
- 難點
- 1.背景複雜 2.遮擋 3.發絲精摳 4.邊緣反色 5.透明材質 5.多尺度
- 解題方法
-
1、複雜問題拆解:粗mask估計+精準matting
2、豐富資料樣本:設計圖像mask統一模型
- 模型架構
-
STEP1:mask粗分割
STEP2:mask品質統一
STEP3:估計精确alpha
視覺生成
- 架構流程
- 視訊生成/編輯
- 視訊摘要
鏡頭分割/語音識别-->動作識别/音畫比對-->鏡頭篩選,邊界優化-->排序優化/音頻剪輯-->視訊合成
- 視訊封面
可以對視訊内容全自動完成品質稽核、内容分析與圖像增強,輸出多幀靜止或動圖。
- 視訊植入
挖掘視訊核心價值
擴充廣告曝光管道,創新廣告形式,提升使用者體驗。
擴大植入範圍覆寫
自動化批量處理視訊内容,挖掘海量短視訊、UGC内容等的廣告價值,擴大植入内容的覆寫面。
提升植入效果效率
取代手工後期,縮短植入周期,降低人力成本,給廣告招商留出充足時間,且不需要修改與流出媒資。
視覺增強
- 單點核心技術
人臉增強,去噪聲,通用場景超分,LDR升HDR,倍頻,去劃痕
- 複合應用技術
人臉修複,标清轉高清,LDR-HDR互轉,4K重生,(錄音帶)老片修複,端上實時增強
- 核心挑戰
分辨率,幀率,色彩
視覺制造
- 核心邏輯
- 主要應用場景
服裝幾何生成、紋理圖案遷移(3D)、視覺遷移及融合、多樣性拓展、2D 3D背景融合
總結一手
在這個人工智能已經普及的時代,各行各業都充斥着AI的身影。音視訊的剪輯衍生了許多新的機會與挑戰。算法與架構無疑是開門鑰匙,在對行業有較深的認知之後再進行學習便可事半功倍。