视觉AI训练营 DAY 1

定义和分类

定义

定义：通过一个或一系列视觉过程，产生一个新的视觉表达

视觉表达：人或机器能感知的图像视频

输入（素材/参数）——处理（视觉生产）——产出（成品）

分类

生成：从无到有

扩展：由一个扩展出更多的近似物

摘要：由多个一样/近似的素材取其主要部分摘要

生维：为输入的素材提升维度（时间维度，空间维度等）

增强/变换：对原本的素材进行增强或者变换使其变为另外一个素材

插入/合成：对两个素材进行插入或合成使其变为另外一个素材

擦除：对两个素材进行剪切使其变为另外一个素材

通用基础框架

输入（请求）>选择生产类型（分发）>视觉生产引擎（服务）>输出（响应）

五个关键维度

规范

重要性由下往上

1、可看性：满足基本的视觉或美学表现

2、合理性：内容的逻辑性

3、多样性：结果的丰富性

4、可控性：提供可供用户使用的抓手

5、可用性：带来经济价值

分割抠图

识别：知道是什么

检测：识别+知道在哪

分割：识别+检测+知道每一个像素是什么

这是一个循序渐进的过程，每一步都是后续操作的必要前置步骤

只有先理解后，才能生成

难点

背景复杂

遮挡

发丝精抠

边缘反色

透明材质

多尺度/多目标

因为数据本身的严重不足，导致了标注成本高

解题思路

1、对复杂问题拆解

2、丰富数据的样本

模型框架

1、mask粗分割

2、mask质量统一

3、估计精确alpha

部分扩展

人像抠图：人：头——发——脸提取动态活动的人物

物体抠图：细节问题等

场景抠图

视觉生成

以平面设计图像生成平台——<鹿班>为例

框架流程

1、提取用户的需求，作为可控性的抓手

2、获得草图，粗理图

3、粗理图优化/增强得到细理图

4、根据用户的需求进一步调整，得到成品图

鹿班电商设计

照图生图：通过参考原图的风格，布局等信息和其他特征学习并迁移到目标数据上。仿照原图。

个性化设计：通过不同的需求来进行多样化的生成。

鹿班场景智能美工

场景智能设计

1、人工智能还原学习

通过输入一定量的图片作为学习源来进行插入或合成操作，输入整图（JPG,PNG等）来还原PSD的多图层设计。

2、模板创作机器人

通过学习还原来的PSD进行扩展操作从而生成更多PSD文件模板以进行合成。

3、图片合成机器人

通过已创作的模板来进行合成，将PSD文件输出为成品图。

场景智能美工

输入：营销场景或原始素材

过程：调用API

输出：营销图片

以短视频设计生成平台——为例

1、准备素材（场景选择、关联商品、素材准备、参数设置）

2、视频算法（可以使用编辑器微调。核心）

3、渲染合成（将已编排好的视频进行视频合成后渲染出成品）

4、投放上传平台

视频摘要

将生成的视频或原已有的视频或多个视频进行关键摘要（如15秒摘要，30秒摘要，60秒摘要等）

视频封面

图像增强：在内容理解的基础上对图片进行裁剪和组合。

内容分析：通过AI的分析功能来对全视频进行内容分析和挑选。

质量审核：将模糊、曝光等低质量图像进行过滤。

完成以上一系列操作后来抓取生成多帧静止图或动图。随后可以进行各个平台的分发。

视觉编辑

视频植入

PS:我个人认为这个功能比较有意思

场景：电视剧植入、电影植入、综艺植入等。

可以将广告内容与宿体内容本身不太符合的广告以没有太多【违和感】的形式植入，使广告的植入范围变得更广，大大提升了广告的植入效率，并且不会给用户造成太大的反感。

功能：

挖掘视频核心价值：提升广告的曝光渠道，创新的广告形式，并可以提升用户的体验。

扩大植入覆盖范围：通过自动化处理视频内容来挖掘大量短视频/UGC内容的广告价值来扩大植入内容的覆盖范围。

提升植入效果效率：一定程度的代替手工后期，缩短了植入周期并降低人力成本，给广告招商留出了充足的时间，且不需要修改与流出媒资。

流程

分镜检测——{广告位检测——广告位跟踪——遮挡检测}（关键环节）——素材匹配（场景标签）——光影渲染

处理位置，透视、尺寸、遮挡、时间的实现难度较高。

植入位检测与定位

空白区域自动检测

移除屏幕遮挡等复杂情况的跟踪

动态检测分割

高精度静态分割再由静态转为动态

通过分割出部分进行跟踪

视频内容擦除

应用技术：字幕擦除、台标擦除、广告擦除、场景文字擦除、人体擦除

核心挑战与亮点：粗定位——精分割——像素填充——在线训练

示例模型：

PS:现在啥都看不懂

文字擦除

应用：去除字幕（样式相似）、去除原生文字（样式无限丰富）、去处台标（标识有限）、去掉广告（区域大，标识无限）

这个功能的应用地方应该很多，其实际的可操作空间可能会更广。

画幅变化

主体检测分割+背景拉伸+背景补全+智能构图裁剪+超分辨率

目的：保留更多的有效画面

应用范围应该很广，因为现在为了适配各种各样的设备对视频的要求也更多（电视，电脑，平板，手机等），普遍依靠播放平台本身的适配来解决（范围拉伸，范围裁剪），如果使用智能画幅变化来处理的话就能解决这种问题，提升用户的体验，现在的视频平台很多，这个功能日后的需求应该会非常多。

图像尺寸变化

和上面的应用范围有重叠的地方，但更多应该是提高在网站或现实的应用范围，比如一份广告，同时植入在网站上，在网站上又分为banner广告，侧面广告，小窗广告等。而在现实中可以植入在地铁，书签，商场等地方。多样化提高使用范围。

视觉增强

核心技术：人脸增强、去噪声、通用场景超分、LDR生HDR、倍频、去划痕、

符合应用技术：人脸修复，标清转高清、LDR-HDR互转、4K重生、老片修复、端上实时增强

核心挑战：分辨率、帧率、色彩

这个功能在当下的需求就已经很多了，前景巨大。

人脸修复增强

目标：对人脸进行细节修复增强，应用范围很广，除了常规的应用外，还可以应用到寻人，日后可能也会应用到刑侦方面。

渲染图/视频超分

应用：通过渲染低分辨率的视频/图像后再对图片/视频进行超分处理，可以一定程度节省获得成品的时间。

此外还可以对模糊的图片或者视频进行处理，实现获得更清晰的视频或者图片需求。（甲方爸爸的需求终于实现了）

视频插帧

我有学习过部分视频剪辑和后期的知识，但是连入门的程度都不算。

我们大部分体验过视频比较卡，不流畅的场景，有时候是设备因素，有时候是人为因素或者软件因素。或者大部分游戏玩家在游戏运行不畅的时候会感觉游戏画面卡顿掉帧。

通过该功能来实现使视频更加流畅。

HDR色彩扩展

风格迁移

通过智能学习后提取视频/图片的风格而来生成一个智能的的“滤镜”（保留该保留的地方和细节）

视觉迁移-颜色拓展

给定目标色系——给定参考图——自动模式

智能更换配色，获得更加多样化的选择，也能避免一定程度的审美疲劳。

视觉制造

实体设计制造

效率低：多次打样，多次沟通，沟通本身的效率也不高。

协同差：设计、营销、生成脱节、倒置。

定制难：无法实现柔性生产，多样化能力几乎没有。

核心逻辑

降低人力成本，大幅提高多样化能力。

包装几何生成

包装的自适应纹理的几何生成

输入材质/纹理/关键元素>生成包装渲染图>通过视觉拓展的方式进而实现多样化生成更多的包装样式>生产

服装几何生成

同上。

2D板片>3D板片>3D服饰>成衣效果>试衣效果

材质工艺

对输入进行扩展和增强而获得更多的样式，以提升多样化的能力。

视觉迁移及融合

通过图片来获得和恢复纹理，随后进行扩展和升维操作，通过迁移来生成试板图用以预览。

原理应该和风格迁移类似。

多样性扩展

分割素材>提取>智能搭配>预览

操作更加复杂，但是应用前景巨大。

2D3D融合

几何一致性计算>3D朝向估计>HDR光照估计>融合渲染

用来生成更多样式的图片，提供及其强大的多样性，大幅提高生产效率。

视觉智能开放平台API

定位

聚能力>搭平台>建生态>树品牌

经过今天的学习，大致的对视觉AI有了个初步的了解，AI看起来复杂，学习起来也是复杂的，但是如果能实现那些强大而令人惊叹的功能，我想这种程度根本不算什么，40分钟的课程我受益匪浅。

视觉AI训练营 DAY 1

继续阅读

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

[HTML5]自定义属性 data-* 和 jQuery.data 详解

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

C++ 第十五周报告1--《冒泡法排序》

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

无人机--飞控科普

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希