天天看点

阿里云视觉AI 5天实践训练营

1.视觉生产技术分类

生成:从无到有。

拓展:已经存在,拓展到更多。

摘要:浓缩在一起,提取出重要的部分。

升纬:比如图像为2D,加上时间轴,就是2D加t。也 可以是2D变3D。

增强/变换:一张图通过增强或者变换得到另一张图。

插入/合成:两张图合成或者一张图插入一些内容。

擦除:就是去除一些内容。

2.视觉生产—通用基础框架

截屏2020-09-24 上午11.25.47.png

3.五个关键纬度

可看:满足美学表现。

合理:符合逻辑和语义。

多样:结果丰富多样。

可控:用户提供参数可控结果。

可用:可以实际应用。

4.分割

想要进行视觉生产最基础的就是分割。分割分为三步,第一步是识别需要知道这张图是什么?第二步,检测需要知道问题和处理的地方在哪?第三步就是分割,知道每个像素都是些什么东西,分割的难点在于数据不足,标注成本高。

分割大概有三种,第一是语义分割知道他是什么类型的,比如知道一张图片里面这是一个人。第二个是实例分割,比如知道那个人是谁?第三个是Matting。对于一些较难的复杂问题,一般进行拆分方法先粗mask估计,然后再精准的maltting。

5.视觉生成

除了分割,还有从无到有即视觉生成,比如有视频摘要,将视频中的重要部分选出来。视觉编辑,即可以在视频中加入植入等,其它的还有动态分割,将视频中指定的物品配出来、视频内容擦除,比如擦掉模糊的字幕,logo等。还有画幅变化、图像尺寸变化等。

6.视觉增强

视频增强、人脸修复、视频插帧、HDR色彩扩展、风格迁移、颜色拓展等。

7.视觉制造

几何生成,和传统工业相结合、视觉迁移、多样性拓展等

以短视频设计生成平台——为例

框架流程

1、 准备素材(场景选择、关联商品、素材准备、参数设置)

2、 视频算法(可以使用编辑器微调。核心)

3、 渲染合成(将已编排好的视频进行视频合成后渲染出成品)

4、 投放上传平台

视频摘要

将生成的视频或原已有的视频或多个视频进行关键摘要(如15秒摘要,30秒摘要,60秒摘要等)

视频封面

图像增强:在内容理解的基础上对图片进行裁剪和组合。

内容分析:通过AI的分析功能来对全视频进行内容分析和挑选。

质量审核:将模糊、曝光等低质量图像进行过滤。

完成以上一系列操作后来抓取生成多帧静止图或动图。随后可以进行各个平台的分发。

视觉编辑

视频植入

PS:我个人认为这个功能比较有意思

场景:电视剧植入、电影植入、综艺植入等。

可以将广告内容与宿体内容本身不太符合的广告以没有太多【违和感】的形式植入,使广告的植入范围变得更广,大大提升了广告的植入效率,并且不会给用户造成太大的反感。

继续阅读