天天看點

騰訊AI Lab公布首項研究:提出獨特神經網絡實作實時視訊風格變換

風格變換一直是機器學習領域内的一項重要任務,很多研究機構和研究者都在努力打造速度更快、計算成本更低的風格變換機器學習系統,比如《 怎麼讓你的照片帶上藝術大師風格?李飛飛團隊開源快速神經網絡風格遷移代碼 》、《 谷歌增強型風格遷移新算法:實作基于單個網絡的多種風格實時遷移 》。如今新成立的騰訊 AI Lab 也加入了此行列,在此文章中機器之心對騰訊 AI Lab 的視訊風格變換的研究進行了獨家報道。

騰訊AI Lab公布首項研究:提出獨特神經網絡實作實時視訊風格變換

幾天前,Facebook 在其官方部落格上宣布了一種可以用在移動裝置實作實時風格的深度學習系統 Caffe2Go,稱能在眨眼之間完成處理的任務,而且還能實作高品質的視訊風格變換。

而鮮為人知的是,騰訊新成立的人工智能研究部門騰訊 AI Lab 也在做這方面的研究,技術團隊告訴我們騰訊 AI Lab 早在 9 月中就已經研發出了實時的視訊風格變換技術,并用此技術對一些電影進行了風格變化,制作了非常酷炫的藝術人工智能電影,在騰訊内部已經有過展示。騰訊 AI Lab 的研究表示,他們已認證首創深度網絡學習視訊的時空一緻性,在很大程度上提高了視訊風格變換的品質。

騰訊AI Lab公布首項研究:提出獨特神經網絡實作實時視訊風格變換
點選檢視原視訊

近日,機器之心對騰訊 AI Lab 的研究團隊進行了獨家專訪,這也是騰訊 AI Lab 研究團隊首次對外發聲。

風格變換簡史

将一張圖像的風格變換成另一種風格的技術已經存在了近 15 年。2001 年,當時加州大學伯克利分校的 Alexei A. Efros 聯合另外一位作者在論文《Image Quilting for Texture Synthesis and Transfer》中介紹了一種簡單的基于紋理合成的方法,通過「縫合」已有的小型圖像塊合成新的圖像外貌。

但利用神經網絡來做這件事是最近才出現的。在論文《A Neural Algorithm of Artistic Style》中,研究者 Gatys、Ecker 和 Bethge 介紹了一種使用深度卷積神經網絡(CNN)的方法。他們的風格轉換圖像是通過優化(optimization)得到的。

一方面,CNN 的高層特征描述了圖像的主要的結構化資訊。另一方面,基于 CNN 每一層的特征計算得到的 Gram matrix 又可以很好的捕捉圖像的風格資訊(筆觸以及紋理等)。結合這兩種資訊定義損失函數,指導圖像從某個起始點(如:随機噪聲或内容圖像本身)開始,不斷疊代優化,逐漸轉變為風格變換後的圖像

騰訊AI Lab公布首項研究:提出獨特神經網絡實作實時視訊風格變換

内容+風格=另一種風格圖像(圖檔來自:Google Reserch)

該成果被認為是深度學習研究領域的一項突破,因為它首次提供了基于神經網絡的風格變換的概念證明。不幸的是,這種為單張圖像施加風格的方法對計算要求很高。

不過到了 2016 年,俄羅斯的 Dmitry Ulyanov [1] 等人以及斯坦福李飛飛團隊 [2] 的研究都大大加速了這一過程。這些研究認識到可以将這個優化問題轉變成圖像變換問題(image transformation problem),也就是将單個固定的風格應用到任意一張内容圖像(比如一張照片)上。

然後該問題就可以這樣被解決:訓練一個前饋深度卷積神經網絡來改變内容圖像的語料庫(corpus),進而使之比對某畫作的風格。這個訓練出的網絡有兩重目的:保持原有圖像的内容,同時比對繪畫的視覺風格。這樣得到的最終結果是:以前花幾分鐘的圖像風格轉換現在通過前饋網絡可以實時得到,進而應用于實時視訊風格變換。

風格變換技術如何由圖像擴充到視訊?

視訊是未來網際網路上最多的流量載體。在圖像風格變換引起爆發性關注之後,一系列的公司,譬如 Aristo,Prisma, Philm 等都開始聚焦短視訊的風格變換,包括對人工智能一向深切關注的 Facebook 也将推出視訊風格變換技術(智能手機移動端)。

将風格變換技術由圖像向視訊拓展最為直接的方式就是使用圖像風格變換的技術逐幀完成視訊的變換,但是這樣很難保證視訊幀間風格的一緻性。為此 Ruder 等人提出了一種疊代式的做法 [3],通過兩幀像素之間的對應關系資訊來限制視訊的風格變換。

但是,這種方法在生成風格化視訊的時候複雜度很高,耗時很長。是以,如何建構有效的深度學習模型來學習視訊的空間域以及時間域的特性以完成視訊風格變換是學術界以及工業界一個重要的研究課題。

為解決這種問題,這個深度學習模型需要:

  1. 在空間域上可以将名畫元素有效的提取出來并學習應用;
  2. 在時間域上保持變換風格的時間一緻性(temporal consistency);
  3. 保證計算的高效性以支援更多的實際應用場景。

這也是包括 Facebook 和斯坦福大學等業界領先的研究團隊比較關注的研究課題。但是迄今,業界的研究團隊仍然沒有很好的深度學習模型和高效率(如實時)的解決方案。

前向網絡(Jonson et al.)主要應用于圖像上。疊代式(Ruder et al.)的方法來處理視訊的風格變換考慮了時間域的一緻性,但是處理速度非常慢,處理一幀視訊大約需要 3 分鐘。

斯坦福大學的 Justin Johnson(使用前向網絡完成圖像風格變換的作者 [2])也談到「将前向網絡與基于光流的時間一緻性結合是一個開放性的課題」,他本人認為這種結合是可能的,但是不清楚業界是否有人已經實作,而且也不太确定這種結合的正确方式。

針對視訊風格變換的技術難點,騰訊 AI Lab 在業界率先建構了深度神經網絡,将風格變換的前向網絡與視訊時空一緻性結合起來,高效地完成高品質的視訊風格變換。

首先,騰訊 AI Lab 設計了獨特的深度神經網絡,該網絡結合了最新的卷積層以及殘差層,能夠對圖像和視訊學習有效的表示。在訓練的過程中使用大規模、多場景、多特點的視訊資料(數千小時)以及相應的風格圖像,一方面學習空間域的風格變換特點(在保持原有視訊内容的基礎上引入給定圖像的風格),另一個方面捕捉視訊幀之間極其複雜多變的時域特性,使得産生的風格視訊相鄰幀之間的時空内容與風格一緻。因為是針對視訊資料,定義的損失函數(Loss Function)也比做圖像資料的損失函數更複雜。

更重要的是,騰訊 AI Lab 還提出了一種針對視訊資料的獨特訓練過程,使得他們的深度神經網絡能夠更好地捕捉視訊時間域上的一緻性資訊。在風格視訊生成階段,不用做任何預處理和後處理,将輸入視訊在風格變換網絡上進行一次前向傳播,實時輸出風格化的視訊。

不僅如此,為了滿足線上需要,騰訊 AI Lab 也挖掘了模型的深度、寬度對輸出品質的影響,并基于此對模型進行壓縮且輸出品質沒有肉眼可見損失。「我們有不同的網絡模型精簡政策和模型壓縮算法。壓縮後的模型小于 1M」。做此研究的人員說,「這裡談到的模型精簡和壓縮,是針對深度網絡的精簡以及相關的壓縮政策。壓縮會精簡深度模型的操作并降低運算的複雜度,但是産生的圖像/視訊的品質(相比未壓縮)不會顯著性降低。」

從圖像的風格變換到視訊的風格變化,資料量的增長是巨大的。在解決資料增長的問題上,研究人員在建構算法的時候考慮到了不同的解決方案。在雲端處理時,可以通過并行化的操作來快速完成視訊風格生成。在終端處理時,通過網絡的精簡和壓縮,使得在終端上能夠實時完成視訊的風格變換。

最後,經過上述優化後的深度模型,可以在手機用戶端做到針對攝像頭資料的實時處理,将使用者拍攝的視訊畫面實時進行風格變換。

除此之外,騰訊 AI Lab 内部也關注了谷歌的多種風格融合的圖像風格變化工作。

「整體來說,谷歌發現了不同風格的變換網絡的參數之間的關系,是以使用一個基礎網絡以及另外一個參數變換表格來融合生成多種風格的網絡。」騰訊 AI Lab 也正在研究如何将這一技術拓展到視訊領域。

手機用戶端實時視訊風格變換在産品上的應用

立足于騰訊的大資料與平台,AI Lab 作為騰訊新成立的研究部門也在探索人工智能技術的新應用和新業務,将人工智能技術融入産品,滿足騰訊龐大使用者的需求。這也和谷歌、Facebook、亞馬遜、微軟等巨頭成立人工智能研究部門、開發新技術、融合新産品與業務的公司政策如出一轍。

正如前文所言,騰訊 AI Lab 率先在業界探索了使用前向網絡實作實時的視訊風格變換,這是騰訊 AI Lab 在将人工智能技術與騰訊使用者需求相結合的嘗試。

「這使我們有理由相信更多的人工智能技術也能夠應用到各類場景下的資料上面(圖像/視訊,文本,語音等)。」

類似之前朋友圈爆紅的一款圖像産品 Prisma,我們了解到騰訊 AI Lab 開發的圖像濾鏡技術已經在天天 P 圖的 P 圖實驗室上線,産品名稱是「潮爆藝術畫」。目前他們們已經開發了上百款圖像濾鏡,會陸續在「潮爆藝術畫」裡登場。而對于視訊風格變換技術,騰訊也有了一些産品上的計劃。

參考文獻:

[1]Ulyanov, Dmitry, Vadim Lebedev, Andrea Vedaldi, and Victor Lempitsky. Texture Networks: Feed-forward Synthesis of Textures and Stylized Images (2016).

[2]J. Johnson, A. Alahi, L. Fei-fei,「Perceptual Losses for Real-Time Style Transfer and Super-Resolution」, ECCV 2016.

[3]Ruder, Manuel, Alexey Dosovitskiy, and Thomas Brox. "Artistic style transfer for videos." arXiv preprint arXiv:1604.08610 (2016).

©本文由機器之心原創,轉載請聯系本公衆号獲得授權。

繼續閱讀