用竖屏看热剧！阿里文娱视频横转竖技术实践

作者：阿里文娱算法专家闵公

常见的机器视觉问题，诸如目标检测、主体标定、目标追踪、视频增强等作为独立技术问题来求解，是不是有些枯燥？在文娱产业中，如何将这些视觉技术进行创新和组合形成完整技术栈，对海量横屏播放的影视剧和短视频自动转换成竖版播放的视频？

且看阿里文娱摩酷实验室的算法专家闵公在GMIC Live 2020智慧文娱技术专场中的分享，主要介绍如何“基于机器视觉算法自动化”将海量横版长剧集转换竖版视频，包括横版视频的主体自动选择算法，镜头平滑能力等，希望对大家在视觉算法如何运用在文娱行业中有所启发。

核心技术内容包括：

1) 视频横转竖技术链路搭建

2) 复杂环境下主体自动标定模型

3) shot镜头平滑和标定追踪交互机制

4) 视频裁剪导致降质条件下的画面恢复

一、横屏转竖屏的视频裁剪的行业需求

首先，站在海量内容消费者的角度来看，90%以上的视频内容消费者会选择单手竖持手机，同时也有50%以上的用户会选择将屏幕进行竖向的锁定浏览。同时视频内容消费者倾向于将视觉聚焦在焦点主体内容，而不是背景上。

其次，站在内容生产侧，大剧制作有95%以上是横屏拍摄，站在PGC短内容的制作上，像优酷全娱乐、体育等，多是以横屏内容制作为主。如果通过人工将横版拍摄的视频进行剪辑转竖，效率低，效果不可控。

二.横屏转竖屏的产品落地化进程

优酷人工智能平台推出自研的视频自动化的横屏转竖屏技术，应用于视频二次生产和智能封面图生成业务中，目前该技术已经覆盖优酷的OGC剪辑，海量UPGC竖版短小视频生产，智能封面图生产，同时输出给阿里云，服务于文娱企业客户。

三．横屏转竖屏的视频技术链路

智能裁剪技术主要应用于以多人或者单人为主体的影视剧场景，我们将目标检测，跟踪，识别等技术进行创新和结合，开发了完整的视频智能裁剪技术链路，面对实际业务中的主体标定，视频帧间抖动，视频黑边填充等问题针对性的研发了算法解决方案，可以根据不同的业务场景将各算法可插拔的配置进主裁剪pipeline中，阿里文娱视频智能裁剪技术的研发给内容行业的素材自动化制作，剪辑作品的视觉效果和制作成本降低等方面都带来了大幅度的提升。

在视频智能裁剪技术链路中，我们研发了前处理模块(包含镜头切分, 画面尺寸判定，黑边检测裁剪等)，主体选择模块，主体追踪模块和后处理模块（包含画质增强，字幕/logo检测，画面内容修补等），下面分别介绍四个模块。

四.视频裁剪核心研发模块

一）前处理模块：

前处理模块包括分镜边界检测模型，画面尺寸判定算法，黑边检测与剪裁算法等三个模块，其中分镜边界检测模型根据视频画面将视频分成多个镜头片段，针对渐变过渡的镜头，采用视频帧的表征向量逐帧计算相似度进行精细切分；

画面尺寸判定算法使得裁剪可以在不同的画面尺寸中进行自动选择，包括（宽：高）16:9, 4:3, 1:1, 3:4, 9:16等任意尺寸，通过对视频帧进行抽样后根据目标的显著性和运动特性计算得出显著区域的大小进行剪裁尺寸适配；

由于大量upgc横版和竖版视频存在上下黑边填充现象，但上下黑边在自动裁剪后会严重影响用户体验。因此我们使用霍夫变换和直线分类来解决黑边检测与剪裁的问题，并且根据剪裁后的不同尺寸自适应的选择三层重叠样式或者1:1加包框样式进行视频再生产；

二）主体标定模块

我们根据人工标注的影剧综主体GT数据，设计了主体自动选择模型对视频帧中的主体进行自动标定。主体自动选择模型将视频中的人脸，人体bbox，显著性区域，图像清晰度等候选区域进行roi align对齐后，通过深度卷积网络进行最佳主体选择模型的训练，通过和显著性模型以及注视预测模型进行max-IOU指标对比，我们提出的主体自动选择模型表现SOTA。

同时我们将主体选择模型应用于复杂环境下的场景(如动物世界，大型晚会，新闻联播等)下进行效果测试，裁剪后的竖版视频效果符合预期，从而验证了我们提出的主体选择模型具备的泛化能力。

在主体数据标注的过程中，我们制定了一套主体选择标注标准，包括主体中心化，主体max尺寸、主体尺寸比例，主体的姿态以及主体稳定性等。完成了主体图像数据集共9.5k的标注，视频数据集125个视频，共13.2万帧的标注。针对视频帧存在的多主体和人工标注的抖动问题，我们引入了reid和平滑滤波来为辅助解决上述两个问题。

三）主体追踪模块

主体追踪模块包括目标追踪算法，镜头平滑算法，主体标定和主体追踪交互机制。通过对多个物体运行多次SOT追踪得到关键帧后续相邻帧中主体目标对应的位置，形成连续视频帧的镜头标定结果。我们在追踪模块中引入backward tracking策略，将短时track能力扩展为长时跟踪，并进行了local-to-global search based tracking，以此来降低追踪模块和主体标定模型的交互次数和计算时间。同时针对主体切分比例采取了黄金分割比例来提升美学观感。

由于目标追踪算法得到的镜头剪裁位置并不是平滑渐变的，这导致画面抖动，引起用户观看眩晕等较差体验，因此通过时间序列离群点检测和Kalman filter等技术，将异常定位点t进行平滑，解决了裁剪后视频帧间抖动问题，抖动幅度Jitter Degree得到了显著性的降低，人工评估视频帧后观感流畅。同时通过主体标定和主体追踪交互机制,保证了主体目标在镜头切换情况下的镜头内容连续性。

四）后处理模块

针对视频剪裁后的视频画质问题，我们开发了后处理模块（包含画质增强，字幕/logo检测，画面内容修补等），主要解决剪裁边界可能的logo/字幕截断问题和裁剪后主体相对放大和编码导致的分辨率降低问题。其中我们针对性的设计了去噪、超分辨率模型，对裁剪后的降质视频进行画质提升，在超分模型研发中，我们在训练数据增强上采用自适应采样算法(如下图所示，红色bbox由随机采样得到,绿色bbox由自适应采样得到)使得采样得到的图像patch集中在纹理细节丰富的区域，在模型设计上，采用了multi-term loss

和multi-branch module的结构进行模型训练，最终超分模型在技术指标psnr和人工背对背打分上都得到了显著提升。

结束语

视频智能裁剪技术生产的视频和封面图广泛应用于优酷的各个场景，并得到了业务方和阿里云客户的一致认可，我们对视频智能裁剪算法栈进行了整体性能优化，达到处理时间仅1:2视频时长，目前该技术累计对优酷综艺：演技派，这就是街舞，这就是灌篮；优酷剧集：陆战之王，天雷一部之春花秋月，微微一笑很倾城等百部OGC进行裁剪服务，裁剪后的竖版视频用于抖音，微博等外渠宣发和站内投放，同时主体标定算法服务于搜索双列封面图生产，镜头平滑算法服务于弹幕人脸项目，视频裁剪算法已经部署在阿里云上，由于目前行业内竞品尚无成熟技术方案，已经通过申报《基于主体目标标定与追踪的视频智能剪裁技术》，《基于智能画面分析和多层级主体目标标定的图像智能剪裁技术》专利的方式来保障该产品技术的竞争优势，期待阿里文娱视频裁剪技术为中国的视频娱乐行业创造更大价值。同时感谢AZFT计算机视觉与分析实验室的朱建科老师在项目过程中的技术指导和大力支持。

用竖屏看热剧！阿里文娱视频横转竖技术实践

一、横屏转竖屏的视频裁剪的行业需求

二.横屏转竖屏的产品落地化进程

三．横屏转竖屏的视频技术链路

四.视频裁剪核心研发模块

结束语

继续阅读

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

[HTML5]自定义属性 data-* 和 jQuery.data 详解

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

C++ 第十五周报告1--《冒泡法排序》

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

无人机--飞控科普

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

【python】【数据处理】画多维数据分布图

hdu7108哈希