視覺AI訓練營 DAY 1

定義和分類

定義

定義：通過一個或一系列視覺過程，産生一個新的視覺表達

視覺表達：人或機器能感覺的圖像視訊

輸入（素材/參數）——處理（視覺生産）——産出（成品）

分類

生成：從無到有

擴充：由一個擴充出更多的近似物

摘要：由多個一樣/近似的素材取其主要部分摘要

生維：為輸入的素材提升次元（時間次元，空間次元等）

增強/變換：對原本的素材進行增強或者變換使其變為另外一個素材

插入/合成：對兩個素材進行插入或合成使其變為另外一個素材

擦除：對兩個素材進行剪切使其變為另外一個素材

通用基礎架構

輸入（請求）>選擇生産類型（分發）>視覺生産引擎（服務）>輸出（響應）

五個關鍵次元

規範

重要性由下往上

1、可看性：滿足基本的視覺或美學表現

2、合理性：内容的邏輯性

3、多樣性：結果的豐富性

4、可控性：提供可供使用者使用的抓手

5、可用性：帶來經濟價值

分割摳圖

識别：知道是什麼

檢測：識别+知道在哪

分割：識别+檢測+知道每一個像素是什麼

這是一個循序漸進的過程，每一步都是後續操作的必要前置步驟

隻有先了解後，才能生成

難點

背景複雜

遮擋

發絲精摳

邊緣反色

透明材質

多尺度/多目标

因為資料本身的嚴重不足，導緻了标注成本高

解題思路

1、對複雜問題拆解

2、豐富資料的樣本

模型架構

1、mask粗分割

2、mask品質統一

3、估計精确alpha

部分擴充

人像摳圖：人：頭——發——臉提取動态活動的人物

物體摳圖：細節問題等

場景摳圖

視覺生成

以平面設計圖像生成平台——<鹿班>為例

架構流程

1、提取使用者的需求，作為可控性的抓手

2、獲得草圖，粗理圖

3、粗理圖優化/增強得到細理圖

4、根據使用者的需求進一步調整，得到成品圖

鹿班電商設計

照圖生圖：通過參考原圖的風格，布局等資訊和其他特征學習并遷移到目标資料上。仿照原圖。

個性化設計：通過不同的需求來進行多樣化的生成。

鹿班場景智能美工

場景智能設計

1、人工智能還原學習

通過輸入一定量的圖檔作為學習源來進行插入或合成操作，輸入整圖（JPG,PNG等）來還原PSD的多圖層設計。

2、模闆創作機器人

通過學習還原來的PSD進行擴充操作進而生成更多PSD檔案模闆以進行合成。

3、圖檔合成機器人

通過已創作的模闆來進行合成，将PSD檔案輸出為成品圖。

場景智能美工

輸入：營銷場景或原始素材

過程：調用API

輸出：營銷圖檔

以短視訊設計生成平台——為例

1、準備素材（場景選擇、關聯商品、素材準備、參數設定）

2、視訊算法（可以使用編輯器微調。核心）

3、渲染合成（将已編排好的視訊進行視訊合成後渲染出成品）

4、投放上傳平台

視訊摘要

将生成的視訊或原已有的視訊或多個視訊進行關鍵摘要（如15秒摘要，30秒摘要，60秒摘要等）

視訊封面

圖像增強：在内容了解的基礎上對圖檔進行裁剪群組合。

内容分析：通過AI的分析功能來對全視訊進行内容分析和挑選。

品質稽核：将模糊、曝光等低品質圖像進行過濾。

完成以上一系列操作後來抓取生成多幀靜止圖或動圖。随後可以進行各個平台的分發。

視覺編輯

視訊植入

PS:我個人認為這個功能比較有意思

場景：電視劇植入、電影植入、綜藝植入等。

可以将廣告内容與宿體内容本身不太符合的廣告以沒有太多【違和感】的形式植入，使廣告的植入範圍變得更廣，大大提升了廣告的植入效率，并且不會給使用者造成太大的反感。

功能：

挖掘視訊核心價值：提升廣告的曝光管道，創新的廣告形式，并可以提升使用者的體驗。

擴大植入覆寫範圍：通過自動化處理視訊内容來挖掘大量短視訊/UGC内容的廣告價值來擴大植入内容的覆寫範圍。

提升植入效果效率：一定程度的代替手工後期，縮短了植入周期并降低人力成本，給廣告招商留出了充足的時間，且不需要修改與流出媒資。

流程

分鏡檢測——{廣告位檢測——廣告位跟蹤——遮擋檢測}（關鍵環節）——素材比對（場景标簽）——光影渲染

處理位置，透視、尺寸、遮擋、時間的實作難度較高。

植入位檢測與定位

空白區域自動檢測

移除螢幕遮擋等複雜情況的跟蹤

動态檢測分割

高精度靜态分割再由靜态轉為動态

通過分割出部分進行跟蹤

視訊内容擦除

應用技術：字幕擦除、台标擦除、廣告擦除、場景文字擦除、人體擦除

核心挑戰與亮點：粗定位——精分割——像素填充——線上訓練

示例模型：

PS:現在啥都看不懂

文字擦除

應用：去除字幕（樣式相似）、去除原生文字（樣式無限豐富）、去處台标（辨別有限）、去掉廣告（區域大，辨別無限）

這個功能的應用地方應該很多，其實際的可操作空間可能會更廣。

畫幅變化

主體檢測分割+背景拉伸+背景補全+智能構圖裁剪+超分辨率

目的：保留更多的有效畫面

應用範圍應該很廣，因為現在為了适配各種各樣的裝置對視訊的要求也更多（電視，電腦，平闆，手機等），普遍依靠播放平台本身的适配來解決（範圍拉伸，範圍裁剪），如果使用智能畫幅變化來處理的話就能解決這種問題，提升使用者的體驗，現在的視訊平台很多，這個功能日後的需求應該會非常多。

圖像尺寸變化

和上面的應用範圍有重疊的地方，但更多應該是提高在網站或現實的應用範圍，比如一份廣告，同時植入在網站上，在網站上又分為banner廣告，側面廣告，小窗廣告等。而在現實中可以植入在地鐵，書簽，商場等地方。多樣化提高使用範圍。

視覺增強

核心技術：人臉增強、去噪聲、通用場景超分、LDR生HDR、倍頻、去劃痕、

符合應用技術：人臉修複，标清轉高清、LDR-HDR互轉、4K重生、老片修複、端上實時增強

核心挑戰：分辨率、幀率、色彩

這個功能在當下的需求就已經很多了，前景巨大。

人臉修複增強

目标：對人臉進行細節修複增強，應用範圍很廣，除了正常的應用外，還可以應用到尋人，日後可能也會應用到刑偵方面。

渲染圖/視訊超分

應用：通過渲染低分辨率的視訊/圖像後再對圖檔/視訊進行超分處理，可以一定程度節省獲得成品的時間。

此外還可以對模糊的圖檔或者視訊進行處理，實作獲得更清晰的視訊或者圖檔需求。（甲方爸爸的需求終于實作了）

視訊插幀

我有學習過部分視訊剪輯和後期的知識，但是連入門的程度都不算。

我們大部分體驗過視訊比較卡，不流暢的場景，有時候是裝置因素，有時候是人為因素或者軟體因素。或者大部分遊戲玩家在遊戲運作不暢的時候會感覺遊戲畫面卡頓掉幀。

通過該功能來實作使視訊更加流暢。

HDR色彩擴充

風格遷移

通過智能學習後提取視訊/圖檔的風格而來生成一個智能的的“濾鏡”（保留該保留的地方和細節）

視覺遷移-顔色拓展

給定目标色系——給定參考圖——自動模式

智能更換配色，獲得更加多樣化的選擇，也能避免一定程度的審美疲勞。

視覺制造

實體設計制造

效率低：多次打樣，多次溝通，溝通本身的效率也不高。

協同差：設計、營銷、生成脫節、倒置。

定制難：無法實作柔性生産，多樣化能力幾乎沒有。

核心邏輯

降低人力成本，大幅提高多樣化能力。

包裝幾何生成

包裝的自适應紋理的幾何生成

輸入材質/紋理/關鍵元素>生成包裝渲染圖>通過視覺拓展的方式進而實作多樣化生成更多的包裝樣式>生産

服裝幾何生成

同上。

2D闆片>3D闆片>3D服飾>成衣效果>試衣效果

材質工藝

對輸入進行擴充和增強而獲得更多的樣式，以提升多樣化的能力。

視覺遷移及融合

通過圖檔來獲得和恢複紋理，随後進行擴充和升維操作，通過遷移來生成試闆圖用以預覽。

原理應該和風格遷移類似。

多樣性擴充

分割素材>提取>智能搭配>預覽

操作更加複雜，但是應用前景巨大。

2D3D融合

幾何一緻性計算>3D朝向估計>HDR光照估計>融合渲染

用來生成更多樣式的圖檔，提供及其強大的多樣性，大幅提高生産效率。

視覺智能開放平台API

定位

聚能力>搭平台>建生态>樹品牌

經過今天的學習，大緻的對視覺AI有了個初步的了解，AI看起來複雜，學習起來也是複雜的，但是如果能實作那些強大而令人驚歎的功能，我想這種程度根本不算什麼，40分鐘的課程我受益匪淺。

視覺AI訓練營 DAY 1

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希