達摩院視覺AI技術應用探索

此文章連結： https://tracytangyc.github.io/2020/0924_aliyun-visual-ai-class1/

簡介與了解

1.定義

視覺AI的工作有兩大部分：了解與生産。後者涉及三個步驟——一、輸入參數或素材；二、過程中生産視覺；三、産出素材或成品。

了解

進行圖像檢測、分割等。

生産

産生新的（和輸入不一樣的）視覺表達，相當于以技術實作設計師、美工等用PS完成的工作過程。

視覺表達是人或機器能夠感覺的圖像視訊，不是用于機器學習的标簽或特征。

2.分類

視覺生産的種類很多，以下以簡單的方式抽象叙述：

分割
```
語義/全景/摳圖
           
```

生成

制造/摘要/封面
從0到1

拓展
```
從1到N
           
```
摘要
```
從N到1
           
```
升維
```
從An到An+1
           
```

增強、變換

超分/色彩/幀率
從A到B

編輯
```
植入/擦除/互換
A-B=C
           
```
插入、合成
```
A+B=C

           
```

以上技術的成熟産品有：鹿班、畫蝶、視覺智能開放平台等，分别為公共或專有雲、用戶端應用等

而他們處理的内容有：

3D
視訊
圖像

通用基礎架構

請求 Request

輸入參數、素材、草案、成品、案例

分發 Dispatch

生産不同類型：

- 通用生成 General
- 素材合成 Assemble
- 照圖生圖 Imitate
- 視訊摘要 Summary
- 編輯變換 Edit
- 視覺拓展 Extend

服務 Service

使用視覺生産引擎

- 生成引擎（模型與知識）
- 搜尋引擎（素材與案例）

響應 Response
- 輸出圖像/視訊/3D 素材、成品、案例

五個關鍵次元

要把視覺生産技術投入工業應用，應當達到以下标準：

可看——滿足視覺/美學表現
合理——合乎語義/内容邏輯
多樣——保證結果的豐富性
可控——提供使用者預期的抓手
可用——帶來使用者/商業價值

視覺了解

視覺了解有以下過程：

識别——知道是什麼（人？物？）
檢測——識别+知道在哪（缺陷檢測、多目标檢測等）

分割——識别+檢測+知道每一個像素是什麼

分割的步驟非常重要，展現在分離複雜的背景和各種遮擋關系，或者提取發絲、镂空等部分。這項工序标注成本高且随精度成倍上升、資料需求量大。

分割摳圖

解題思路：拆解複雜問題為粗mask估計和精準mapping；設計豐富資料樣本作為統一模型

成果：可達到分割人的頭像、頭發、人臉等靜态分割；人物、動物、車輛、商品、動畫等視訊動态分割；天空、人物、物體等場景分割，并調整粒度。

視覺生成

1.鹿班

鹿班是一項針對平面圖像設計生成的大規模線上AI設計服務，源于阿裡巴巴内部，逐漸對外提供服務。包括理需求、定草圖、選狀态、調戲節、生成圖、評好壞的完整流程。鹿班始用于電商，依靠“照圖生圖”和“個性化設計”，配合AI場景設計能力，進行高效、低成本、美觀的場景智能美工。

2.視覺生成AlibabWood

AlibabWood專注于短視訊生成，同時具有劇本生成、智能文案、自動簡介、智能音樂推薦等功能，完成素材準備、基礎特效、智能特效、智能編排四大業内需求。

3.視訊摘要與封面

視訊摘要（封面生成）包括品質稽核、内容分析、圖像增強、輸出多幀靜止圖或動圖

視覺編輯

1.視訊植入

例如插入廣告等原視訊沒有的片段。當中需要進行廣告位檢測、跟蹤、避免螢幕内容遮擋、移位等，并比對視訊細節、光影渲染等，有利于大大挖掘視訊價值、擴大植入範圍、提高制作效率。

2.内容擦除

例如字幕、台标、廣告等擦除，基于精确的視覺分割技術。

3.尺寸變化

需要适配視訊畫幅比例改變而進行裁剪或補全，改變構圖，進行自動化圖像（海報等）多尺寸設計。

視覺增強

執行個體

人臉修複：突出主要特征資訊
渲染圖或視訊超分：用于CG，渲染低分辨率圖後用AI技術放大成高清圖，降低渲染時間
視訊插幀：減少運動場景的視訊晃動、線上視訊的卡頓感
HDR色彩擴充：增強視覺效果，提升廣告等視訊表達語義的能力
風格遷移與顔色拓展：例如名畫濾鏡等

視覺制造

融合虛實畫面，提升生産（打樣、溝通）效率、協同性（設計、營銷、生成的配合）、定制化（柔性生産）。并結合2D、3D估計、渲染等生成技術。

視覺智能開放平台

網址：

vision.aliyun.com

該平台聚合阿裡巴巴的圖像、視訊、3D圖形視覺原子能力，提供雲上智能API，向廣大開發者提供服務，有上百種細分能力，供應鍊、基礎設施、部署場景、定制化服務齊全。

Class 1 | 達摩院特别版-視覺AI訓練營達摩院視覺AI技術應用探索

達摩院視覺AI技術應用探索

簡介與了解

1.定義

2.分類

通用基礎架構

五個關鍵次元

視覺了解

分割摳圖

視覺生成

1.鹿班

2.視覺生成AlibabWood

3.視訊摘要與封面

視覺編輯

1.視訊植入

2.内容擦除

3.尺寸變化

視覺增強

執行個體

視覺制造

視覺智能開放平台

繼續閱讀

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

GNU科學函數庫[參考手冊][v0.1 Build 090129 Beta][GNU Scientific Library]

與專家面對面：Android開發入門問與答

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普