天天看點

用豎屏看熱劇!阿裡文娛視訊橫轉豎技術實踐

作者:阿裡文娛算法專家 闵公

常見的機器視覺問題,諸如目标檢測、主體标定、目标追蹤、視訊增強等作為獨立技術問題來求解,是不是有些枯燥?在文娛産業中,如何将這些視覺技術進行創新群組合形成完整技術棧,對海量橫屏播放的影視劇和短視訊自動轉換成豎版播放的視訊?

且看阿裡文娛摩酷實驗室的算法專家闵公在GMIC Live 2020智慧文娛技術專場中的分享,主要介紹如何“基于機器視覺算法自動化”将海量橫版長劇集轉換豎版視訊,包括橫版視訊的主體自動選擇算法,鏡頭平滑能力等,希望對大家在視覺算法如何運用在文娛行業中有所啟發。

核心技術内容包括:

1) 視訊橫轉豎技術鍊路搭建

2) 複雜環境下主體自動标定模型

3) shot鏡頭平滑和标定追蹤互動機制

4) 視訊裁剪導緻降質條件下的畫面恢複

一、橫屏轉豎屏的視訊裁剪的行業需求

首先,站在海量内容消費者的角度來看,90%以上的視訊内容消費者會選擇單手豎持手機,同時也有50%以上的使用者會選擇将螢幕進行豎向的鎖定浏覽。同時視訊内容消費者傾向于将視覺聚焦在焦點主體内容,而不是背景上。

用豎屏看熱劇!阿裡文娛視訊橫轉豎技術實踐

其次,站在内容生産側,大劇制作有95%以上是橫屏拍攝,站在PGC短内容的制作上,像優酷全娛樂、體育等,多是以橫屏内容制作為主。如果通過人工将橫版拍攝的視訊進行剪輯轉豎,效率低,效果不可控。

二.橫屏轉豎屏的産品落地化程序

優酷人工智能平台推出自研的視訊自動化的橫屏轉豎屏技術,應用于視訊二次生産和智能封面圖生成業務中,目前該技術已經覆寫優酷的OGC剪輯,海量UPGC豎版短小視訊生産,智能封面圖生産,同時輸出給阿裡雲,服務于文娛企業客戶。

用豎屏看熱劇!阿裡文娛視訊橫轉豎技術實踐

三.橫屏轉豎屏的視訊技術鍊路

智能裁剪技術主要應用于以多人或者單人為主體的影視劇場景,我們将目标檢測,跟蹤,識别等技術進行創新和結合,開發了完整的視訊智能裁剪技術鍊路,面對實際業務中的主體标定,視訊幀間抖動,視訊黑邊填充等問題針對性的研發了算法解決方案,可以根據不同的業務場景将各算法可插拔的配置進主裁剪pipeline中,阿裡文娛視訊智能裁剪技術的研發給内容行業的素材自動化制作,剪輯作品的視覺效果和制作成本降低等方面都帶來了大幅度的提升。

在視訊智能裁剪技術鍊路中,我們研發了前處理子產品(包含鏡頭切分, 畫面尺寸判定,黑邊檢測裁剪等),主體選擇子產品,主體追蹤子產品和後處理子產品(包含畫質增強,字幕/logo檢測,畫面内容修補等),下面分别介紹四個子產品。

用豎屏看熱劇!阿裡文娛視訊橫轉豎技術實踐

四.視訊裁剪核心研發子產品

一)前處理子產品:

前處理子產品包括分鏡邊界檢測模型,畫面尺寸判定算法,黑邊檢測與剪裁算法等三個子產品,其中分鏡邊界檢測模型根據視訊畫面将視訊分成多個鏡頭片段,針對漸變過渡的鏡頭,采用視訊幀的表征向量逐幀計算相似度進行精細切分;

用豎屏看熱劇!阿裡文娛視訊橫轉豎技術實踐

畫面尺寸判定算法使得裁剪可以在不同的畫面尺寸中進行自動選擇,包括(寬:高)16:9, 4:3, 1:1, 3:4, 9:16等任意尺寸,通過對視訊幀進行抽樣後根據目标的顯著性和運動特性計算得出顯著區域的大小進行剪裁尺寸适配;

由于大量upgc橫版和豎版視訊存在上下黑邊填充現象,但上下黑邊在自動裁剪後會嚴重影響使用者體驗。是以我們使用霍夫變換和直線分類來解決黑邊檢測與剪裁的問題,并且根據剪裁後的不同尺寸自适應的選擇三層重疊樣式或者1:1加包框樣式進行視訊再生産;

用豎屏看熱劇!阿裡文娛視訊橫轉豎技術實踐

二)主體标定子產品

我們根據人工标注的影劇綜主體GT資料,設計了主體自動選擇模型對視訊幀中的主體進行自動标定。主體自動選擇模型将視訊中的人臉,人體bbox,顯著性區域,圖像清晰度等候選區域進行roi align對齊後,通過深度卷積網絡進行最佳主體選擇模型的訓練,通過和顯著性模型以及注視預測模型進行max-IOU名額對比,我們提出的主體自動選擇模型表現SOTA。

用豎屏看熱劇!阿裡文娛視訊橫轉豎技術實踐

同時我們将主體選擇模型應用于複雜環境下的場景(如動物世界,大型晚會,新聞聯播等)下進行效果測試,裁剪後的豎版視訊效果符合預期,進而驗證了我們提出的主體選擇模型具備的泛化能力。

在主體資料标注的過程中,我們制定了一套主體選擇标注标準,包括主體中心化,主體max尺寸、主體尺寸比例,主體的姿态以及主體穩定性等。完成了主體圖像資料集共9.5k的标注,視訊資料集125個視訊,共13.2萬幀的标注。針對視訊幀存在的多主體和人工标注的抖動問題,我們引入了reid和平滑濾波來為輔助解決上述兩個問題。

用豎屏看熱劇!阿裡文娛視訊橫轉豎技術實踐

三)主體追蹤子產品

主體追蹤子產品包括目标追蹤算法,鏡頭平滑算法,主體标定和主體追蹤互動機制。通過對多個物體運作多次SOT追蹤得到關鍵幀後續相鄰幀中主體目标對應的位置,形成連續視訊幀的鏡頭标定結果。我們在追蹤子產品中引入backward tracking政策,将短時track能力擴充為長時跟蹤,并進行了local-to-global search based tracking,以此來降低追蹤子產品和主體标定模型的互動次數和計算時間。同時針對主體切分比例采取了黃金分割比例來提升美學觀感。

用豎屏看熱劇!阿裡文娛視訊橫轉豎技術實踐

由于目标追蹤算法得到的鏡頭剪裁位置并不是平滑漸變的,這導緻畫面抖動,引起使用者觀看眩暈等較差體驗,是以通過時間序列離群點檢測和Kalman filter等技術,将異常定位點t進行平滑,解決了裁剪後視訊幀間抖動問題,抖動幅度Jitter Degree得到了顯著性的降低,人工評估視訊幀後觀感流暢。同時通過主體标定和主體追蹤互動機制,保證了主體目标在鏡頭切換情況下的鏡頭内容連續性。

用豎屏看熱劇!阿裡文娛視訊橫轉豎技術實踐

四)後處理子產品

針對視訊剪裁後的視訊畫質問題,我們開發了後處理子產品(包含畫質增強,字幕/logo檢測,畫面内容修補等),主要解決剪裁邊界可能的logo/字幕截斷問題和裁剪後主體相對放大和編碼導緻的分辨率降低問題。其中我們針對性的設計了去噪、超分辨率模型,對裁剪後的降質視訊進行畫質提升,在超分模型研發中,我們在訓練資料增強上采用自适應采樣算法(如下圖所示,紅色bbox由随機采樣得到,綠色bbox由自适應采樣得到)使得采樣得到的圖像patch集中在紋理細節豐富的區域,在模型設計上,采用了multi-term loss

和multi-branch module的結構進行模型訓練,最終超分模型在技術名額psnr和人工背對背打分上都得到了顯著提升。

用豎屏看熱劇!阿裡文娛視訊橫轉豎技術實踐

結束語

視訊智能裁剪技術生産的視訊和封面圖廣泛應用于優酷的各個場景,并得到了業務方和阿裡雲客戶的一緻認可,我們對視訊智能裁剪算法棧進行了整體性能優化,達到處理時間僅1:2視訊時長,目前該技術累計對優酷綜藝:演技派,這就是街舞,這就是灌籃;優酷劇集:陸戰之王,天雷一部之春花秋月,微微一笑很傾城等百部OGC進行裁剪服務,裁剪後的豎版視訊用于抖音,微網誌等外渠宣發和站内投放,同時主體标定算法服務于搜尋雙列封面圖生産,鏡頭平滑算法服務于彈幕人臉項目,視訊裁剪算法已經部署在阿裡雲上,由于目前行業内競品尚無成熟技術方案,已經通過申報《基于主體目标标定與追蹤的視訊智能剪裁技術》,《基于智能畫面分析和多層級主體目标标定的圖像智能剪裁技術》專利的方式來保障該産品技術的競争優勢,期待阿裡文娛視訊裁剪技術為中國的視訊娛樂行業創造更大價值。同時感謝AZFT計算機視覺與分析實驗室的朱建科老師在項目過程中的技術指導和大力支援。

繼續閱讀