阿里云视觉AI 5天实践训练营

2020-09-23 23:50:00

1.视觉生产技术分类

生成：从无到有。

拓展：已经存在，拓展到更多。

摘要：浓缩在一起，提取出重要的部分。

升纬：比如图像为2D，加上时间轴，就是2D加t。也可以是2D变3D。

增强/变换：一张图通过增强或者变换得到另一张图。

插入/合成：两张图合成或者一张图插入一些内容。

擦除：就是去除一些内容。

2.视觉生产—通用基础框架

截屏2020-09-24 上午11.25.47.png

3.五个关键纬度

可看：满足美学表现。

合理：符合逻辑和语义。

多样：结果丰富多样。

可控：用户提供参数可控结果。

可用：可以实际应用。

4.分割

想要进行视觉生产最基础的就是分割。分割分为三步，第一步是识别需要知道这张图是什么？第二步，检测需要知道问题和处理的地方在哪？第三步就是分割，知道每个像素都是些什么东西，分割的难点在于数据不足，标注成本高。

分割大概有三种，第一是语义分割知道他是什么类型的，比如知道一张图片里面这是一个人。第二个是实例分割，比如知道那个人是谁？第三个是Matting。对于一些较难的复杂问题，一般进行拆分方法先粗mask估计，然后再精准的maltting。

5.视觉生成

除了分割，还有从无到有即视觉生成，比如有视频摘要，将视频中的重要部分选出来。视觉编辑，即可以在视频中加入植入等，其它的还有动态分割，将视频中指定的物品配出来、视频内容擦除，比如擦掉模糊的字幕，logo等。还有画幅变化、图像尺寸变化等。

6.视觉增强

视频增强、人脸修复、视频插帧、HDR色彩扩展、风格迁移、颜色拓展等。

7.视觉制造

几何生成，和传统工业相结合、视觉迁移、多样性拓展等

以短视频设计生成平台——为例

框架流程

1、准备素材（场景选择、关联商品、素材准备、参数设置）

2、视频算法（可以使用编辑器微调。核心）

3、渲染合成（将已编排好的视频进行视频合成后渲染出成品）

4、投放上传平台

视频摘要

将生成的视频或原已有的视频或多个视频进行关键摘要（如15秒摘要，30秒摘要，60秒摘要等）

视频封面

图像增强：在内容理解的基础上对图片进行裁剪和组合。

内容分析：通过AI的分析功能来对全视频进行内容分析和挑选。

质量审核：将模糊、曝光等低质量图像进行过滤。

完成以上一系列操作后来抓取生成多帧静止图或动图。随后可以进行各个平台的分发。

视觉编辑

视频植入

PS:我个人认为这个功能比较有意思

场景：电视剧植入、电影植入、综艺植入等。

可以将广告内容与宿体内容本身不太符合的广告以没有太多【违和感】的形式植入，使广告的植入范围变得更广，大大提升了广告的植入效率，并且不会给用户造成太大的反感。

阿里云视觉AI 5天实践训练营

继续阅读

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

[HTML5]自定义属性 data-* 和 jQuery.data 详解

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

C++ 第十五周报告1--《冒泡法排序》

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

无人机--飞控科普

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希