天天看點

視覺AI訓練營Day1-達摩院視覺AI技術應用探索

視覺生産技術

  • 定義和分類
  • 精細了解—尋微入裡
  • 視覺生成
  • 視覺編輯
  • 視覺增強—修複如新
  • 視覺制造—由虛入實
  • 視覺開放平台—萬劍歸宗

定義

  • 視覺了解,比如檢測、識别、分割
  • 視覺生産,也可以了解為怎麼去産生視覺,指通過一個/一系列視覺過程,産出新的視覺表達

分類

視覺生産主要包括生成、拓展、摘要、升維,另外還有增強/ 變換、插入/ 合成、擦除等

  • 生成:從0到1
  • 拓展:從1到N
  • 摘要:從N到1
  • 升維:從An到An+1
  • 增強/變換:從A到B
  • 插入/合成:A+B=C
  • 擦除:A-B=C

通用基礎架構

請求(Request)、分發(Dispatch)、服務(Service)和響應(Response)四大部分

五個關鍵次元

  • 可看:滿足視覺/美學表現
  • 合理:合乎語義/内容邏輯
  • 多樣:保證結果的豐富性
  • 可控:提供使用者預期的抓手
  • 可用:帶來使用者/商業價值

精細了解——分割摳圖

  • 識别:人的識别、物的識别等
  • 檢測:位置檢測
  • 分割:識别+檢測+知道每一個像素是什麼
    • 視覺分割是生産的必要前置步驟

難點

複雜背景、遮擋、要求高精度(如發絲精摳)、邊緣反色、透明材質、多尺度/目标

解題思路

  • 複雜問題拆解:粗mask估計+精準matting
  • 豐富資料樣本:設計圖像mask統一模型

 視覺生成——從無到有

鹿班

鹿班是針對平面圖像設計生成的産品,其視覺生成大概過程包括理需求、定草圖、選狀态、調細節、生成圖、評好壞6個步驟

  • 照圖生圖:參考原圖,将風格、布局等資訊學習并遷移到目标資料上
  • 個性化設計:多元化設計風格,結合商品品類、投放場景、目标客群的差異進行定制化設計

 AlibabaWood

當下最流行的媒體莫過于短視訊,而AlibabaWood專注于短視訊的生成,同時還有劇本生成、智能文案生成、自動剪輯、智能音樂推薦等實用功能。它的架構流程總體包括素材準備、基礎特效、智能特效和智能編排四大步驟。

  • 視訊摘要
  • 視訊封面

視覺編輯——移花接木

視訊植入

視訊植入就是在視訊中加入一些本來沒有的内容,目前其應用最廣泛的就是廣告

視訊植入是一項非常複雜的技術,需要考慮到方方面面,比如廣告位檢測、廣告位跟蹤等等,有時會遇到遮擋、移出螢幕等複雜情況跟蹤,而且在視訊植入之後還要考慮廣告是否能夠跟視訊細節比對、光影渲染等問題

 視訊内容擦除

實用技術有字幕擦除、台标擦除、廣告擦除、場景文字擦除、人體擦除等,其核心挑戰與亮點是分割,隻有更精确的分割才能夠精确的擦除

畫幅變化

在不同裝置上播放視訊時可能會出現尺寸不比對的情況,這時候就要進行畫幅變化,變化之後為了有完整的視覺效果,需要進行内容補全。

圖像尺寸變化

事先準備好的圖檔在不同尺寸不同場合可以自動變化,适應各種情況。

視覺增強——修舊如新

視訊增強

對視訊效果的增強,包括包括單點核心技術和複合應用技術。

  • 單點核心技術:人臉增強、去噪聲、通用場景超分、LDR升HDR、倍頻、去劃痕
  • 複合應用技術、人臉修複、标清轉高清、LDR-HDR互轉、4K重生、(錄音帶)老片修複、端上實時增強

執行個體

  • 人臉修複增強:人臉是最重要的目标對象,可以用視覺增強技術對人臉進行修複增強,突出主要資訊
  • 渲染圖超分:把低分辨率圖像放大到與高清原圖一樣的清晰度
  • 視訊超分:除了對圖像進行超分外,還可以對視訊進行超分,使得視訊更加清晰,增加顯示效果
  • 視訊插幀:衆所周知,幀率越高觀感越流暢。對視訊進行插幀可以有效的減少視訊的卡頓感。
  • HDR 色彩擴充:除了幀率之外,色彩也是一個很重要的元素,也是視訊高清的一個必要條件,運用視覺增強技術可以很好進行HDR 色彩擴充,增強視訊顯示效果
  • 風格遷移與顔色拓展:視覺增強還可以用來進行風格遷移,比如某些相機軟體,可以将一些名畫的風格遷移到使用者所拍攝的照片上,實作照片的風格多樣化。另外,視覺增強還可以進行顔色的拓展,同時産生不同色彩搭配的效果,滿足不同的需求和色彩的多樣性

 視覺制造——由虛入實

我們可以利用視覺制造技術來解決實際生産過程中面臨的效率低、協同差、定制難等問題

繼續閱讀