視覺生産技術
1. 定義和分類
1.1 視覺生産——定義
- 視覺一般分為兩大類
- 視覺了解:檢測、識别、分割等等
- 視覺生産:怎麼産生視覺【通過一個/一系列視覺過程,産出新的視覺表達】
- 産出:人或機器能夠感覺的圖像視訊,而不是标簽或特征
- 要求:新的,和輸入不一樣的

1.2 視覺生産——分類
- 生成:從0到1
- 拓展:從1到N
- 摘要:從N到1
- 升維:從An到An+1
- 增強/變換:從A到B
- 插入/合成:A+B=C
- 擦除:A-B=C
1.3 視覺生産——通用基礎架構
1.4 視覺生産——五個關鍵次元
- 滿足視覺/美學表現
- 合乎語義/内容邏輯
- 保證結果的豐富性
- 提供使用者預期的抓手【可控】
- 帶來使用者/商業價值【可用】
2. 精細了解——尋微入裡
人要先認知世界才能再改造世界
2.1 精細了解——分割摳圖
- 識别:知道是什麼
- 檢測:識别 + 知道在哪兒
- 分割:識别 + 檢測 + 知道每一個像素是什麼
視覺分割是生産的必要前提步驟
唯能了解,方能生成
![]()
視覺生産技術入門篇視覺生産技術
2.2 分割摳圖——難點
- 複雜背景
- 遮擋
- 發絲精摳、
- 邊緣反色
- 透明材質、
- 多尺度/目标
資料嚴重不足,标注成本高
2.3 分割摳圖——解題思路
- 複雜問題拆解:粗mask設計 + 精準matting
- 豐富資料樣本:設計圖像mask統一模型
2.4 分割摳圖——模型架構
2.5 分割摳圖——人像摳圖
2.6 分割摳圖——物體摳圖
由于每個圖的細節等有所不同,是以想用一個model實作分割所有的圖是不太可能的
2.7 分割摳圖——場景摳圖
3. 視覺生成——從無到有
3.1 視覺生成——架構流程
3.2 視覺生成——電商設計
- 照圖生圖
- 參考原圖,将風格、布局等資訊學習并遷移到目标資料上
- 個性化設計
- 多元化設計風格,結合商品品類、投放場景、目标客群的差異進行定制化設計
3.3 視覺生成——場景智能美工
- IN:營銷場景 + 原始素材
- OUT:營銷圖檔
- 調用方式:API
3.4 視覺生成——AlibabaWood
- 一鍵生成短視訊: https://alibabawood.aliyun.com/
3.5 視覺生成——架構流程
4. 視覺編輯——移花接木
4.1 視訊植入
- 目前大部分廣告都是與内容無關的,對使用者不太友好,視訊植入手段可将廣告植入到視訊中,提升使用者體驗
視覺生産技術入門篇視覺生産技術
4.2 視覺編輯——植入位檢測與定位
4.3 視覺編輯——動态檢測分割
- 單獨分割
- 遮擋關系等
4.4 視覺編輯——視訊内容擦除
4.5 視覺編輯——文字擦除
4.6 視覺編輯——畫幅變化
4.7 視覺編輯——圖像尺寸變化
- 在不同場合圖像尺寸可以自動變化
5. 視覺增強——修舊如新
5.1 視覺增強——視訊增強
5.2 視覺增強——人臉修複增強
- 人臉是最重要的目标對象,對人像進行細節修複增強,有很重要的意義和價值
- eg:老照片修複
5.3 視覺增強——渲染圖超分
- CG渲染時間幾乎與圖像分辨率成正比,高品質真實感渲染需要30分鐘才能産生一張圖像
- 針對CG渲染流水線研發的超高分辨率技術可以把低分辨率圖像放大到與高清原圖一樣的清晰度
視覺生産技術入門篇視覺生産技術
5.4 視覺增強——HDR色彩擴充
5.5 視覺增強——風格遷移
5.5 視覺增強——顔色拓展
6. 視覺制造——由虛入實
6.1 實體設計制造
- 效率低:多次打樣,多次溝通
- 協同差:設計、營銷、生成脫節、倒置
- 定制難:無法實作柔性生産
6.2 視覺制造——核心邏輯
6.3 視覺制造——幾何生成
- 包裝幾何生成
- 服裝幾何生成
6.4 視覺增強——材質工藝
6.5 視覺增強——視覺遷移及融合
6.6 視覺制造——多樣性拓展
6.7 視覺制造——2D 3D融合
7. 視覺開放平台——萬劍歸宗
- 官網:vision.aliyun.com