天天看點

李智:用數學來了解世界

文 / 李智

策劃 / LiveVideoStack

LiveVideoStack:李智你好,非常榮幸能代表LiveVideoStack采訪你。首先,能否向我們的讀者介紹下自己?

李智:感謝LiveVideoStack的邀請。很榮幸能和大家交流。我目前任職于Netflix的視訊算法團隊。過去三年裡VMAF視訊品質算法是我負責的主要項目。在VMAF之前,我是Netflix最早的 Per-title Encoding 算法的主要設計者。加入Netflix之前,我在思科從事ABR算法方面的研究。當時一直嘗試用品質算法對播放器自适應碼率進行優化,但苦于沒有合适的品質算法作為優化目标。希望現在VMAF的出現或多或少彌補了這個遺憾吧。我大學和碩士畢業于新加坡國立大學,當時跟随導師孫啟彬博士做了一些媒體安全方面的研究。博士畢業于斯坦福大學,導師是Bernd Girod教授。

LiveVideoStack:在Netflix工作有什麼樣的感受?和矽谷其他公司比如Google和Facebook有哪些不同?

李智:Netflix目前在全球的雇員有6000多人,主要在矽谷的Los Gatos和洛杉矶有兩個大的園區。個人覺得Netflix文化上最大的特色是給每個員工最大的自由度,同時也要求每個人能夠負擔對應的責任。比如說,個人申請參加學術會議不需要公司準許,隻要能夠對工作有幫助。公司也沒有關于假期的規定(就是說理論上無上限)。公司内部資訊分享非常透明,要跨組織合作是非常容易的事情。對應于高自由度的另一面就是,公司認為你有能夠獨擋一面的能力,能對自己的項目全權負責。對于VMAF這個項目來講,自己基本兼任工程師,研究員,以及PM。公司的組織結構非常的平,比如說幾乎所有工程師都隻有一個級别:Senior Software Engineer。而薪資上來講,每個人的薪水并不和職稱劃等号,而是根據個人的市場價值而定。總的來講,Netflix的薪資在矽谷的公司裡面是屈指可數的。和Google以及Facebook比,Netflix可能文化上更接近Facebook。

LiveVideoStack:聊聊VMAF這個項目吧。關于畫質的評價一直是個難點,尤其通過客觀工具來評價。和其他客觀評價工具相比,VMAF有哪些特點?

李智:VMAF是針對Netflix應用場景的産物。在最初的項目定位的時候,我們并沒有嘗試做一個通用性的畫質評價工具,而是針對Adaptive Streaming場景下可能出現的兩種損失:Compression Artifact和Scaling Artifact做了很多嘗試。在架構的選取的時候,VMAF可以看做是兩種不同方法的結合:一種是基于人的視覺系統感覺的模拟,另一種是用機器學習的方式将特征值和使用者評分聯系起來。其他的工具比如SSIM,VIF更接近第一種,因為其模型裡面間接模拟了人視覺系統裡面的掩蔽效應。而另外一種思路是純機器學習(神經網絡)的方法,從像素階段開始通過大量使用者評分資料學習出模型。這個方法的難點在于需要大量的訓練資料,而采集使用者打分資料是很昂貴的。VMAF可以看作是一種結合了機器學習以及過去上百年對于人類視覺系統的認識作為先驗知識的方法。

LiveVideoStack:我聽說VMAF也存在一些bad case,比如圖像出現塊效應的時候,VMAF分數變化不大。

李智:出現這種情況的原因可能有幾個。

第一,VMAF是一種基于全局的畫質評價工具。如果塊效應是局部的,因為VMAF會對全部的像素做算術平均的池化,則局部的品質損失會被整體沖淡。我們曾嘗試過不同的池化方法,比如說用最差的20%作為目标,但結果和主觀資料的相關性會降低不少。有興趣的朋友可以自己嘗試一下。

第二,因為目前的VMAF模型是基于H.264壓縮的視訊訓練的,有可能當應用于其他種類的編碼器(特别是in-loop filter不同)的時候,會出現預測偏差。使用新的訓練集應該能過解決這個問題。

第三,VMAF所使用的人眼視覺模型應該還有進步空間,比如基于對比度的遮罩效應的參數微調,都會對最後的結果造成影響。具體是哪種情況還要看執行個體。在這裡希望大家能夠把觀測到的VMAF預測不準确的具體例子分享給我,以作為下一個版本VMAF改進的依據。

從另外一個方面來看,也有可能在特定條件下觀測到的塊效應并不能反映一個“平均使用者”對畫質的評分。VMAF預測的是平均使用者(而不是專家)在3H(即觀看距離是顯示器高度的三倍)條件下的評分。如果場景是高速運動的場景,則時域的遮罩效應也會降低它們對使用者體驗的影響。這些都需要看情況具體分析。

LiveVideoStack:GitHub上VMAF項目(

https://github.com/Netflix/vmaf/graphs/contributors

)你的貢獻量遙遙領先,怎麼才能讓更多的人參與到項目中?VMAF未來還會增加哪些功能?

李智:這可能一方面是由圖像評價項目的性質決定的吧。對于系統性質的項目,每個使用者都有具體的使用場景。他們可以比較容易的提出對系統通用性的改進并貢獻代碼。而對于VMAF而言,絕多數的使用者都是把它當作一個黑盒使用。我們收到過很多的功能上(比如說支援Windows)以及運算速度提升(比如并行化)方面的貢獻,但對于算法本身的改進還沒有出現(在Issue裡,已經有不少使用者陳述了他們希望看到的改進,這也是重要的貢獻)。我建議VMAF的使用者如果沒有時間貢獻算法的話,可以從貢獻corner case開始,即提供VMAF預測不符合主觀實驗的執行個體,這是我們下一個版本改進的重要依據。此外,如果能夠貢獻資料集的話就更好了。資料集可以是訓練一個特定領域VMAF模型的資料(比如遊戲視訊,動畫視訊)。

LiveVideoStack:”My greatest aspiration has always been bridging the gap between theory and practice. I am most passionate about applying analytical skills in solving real-world engineering problems.” ,你在LinkedIn上如此描述自己,我嘗試了解下“理論付諸實踐,解決真實世界的工程問題”,尤其在音視訊領域,用數字技術記錄真實世界,并描述人的主觀感受,這樣的挑戰更大吧。

李智:這可能是每一個理工男的夢想吧,用數學來了解世界:)

LiveVideoStack:有沒有對你影響非常大的一個人、一本書或是一部電影?

李智:近期讀完了Daniel Kahneman的Thinking, Fast And Slow,講的是人的思考模式和理性模式之間的差異。這本書非常難讀,前後斷斷續續花了我半年的時間,但讀完之後收獲頗豐,讓我更能了解人們日常的一些非理性行為。這對于我做品質算法的研究也有很大的指導作用,比如:講Two Selves的章節就和時域的池化聯系緊密。

LiveVideoStack:關于在LiveVideoStackCon2019北京上的分享,有哪些可以劇透的?

李智:看項目進展吧。除了對VMAF進行科普之外,可能可以分享一些VMAF在Netflix應用的執行個體。另外一個關鍵詞:HDR。

LiveVideoStack:以下是一些關于VMAF的問題:VMAF對小分辨率的圖像品質判定有改善計劃嗎?VMAF到現在為止,都隻有luma 會影響最終的VMAF分數,對于Chroma 的支援有什麼計劃(

https://github.com/Netflix/vmaf/issues/100

)? 

李智:另外,對于小分辨率的視訊,VMAF的置信區間一般會比較大,即結果不如大分辨率的視訊可靠。這主要是因為VMAF針對了Netflix的視訊,其小分辨率視訊的密度比較低。我還是建議使用者能根據使用情況訓練自己的模型。

是的。我們正在做一個包含Chroma版本的VMAF。Stay Tuned。

————————————————

版權聲明:本文為CSDN部落客「LiveVideoStack_」的原創文章,遵循CC 4.0 BY-SA版權協定,轉載請附上原文出處連結及本聲明。

原文連結:

https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/92856579
「視訊雲技術」你最值得關注的音視訊技術公衆号,每周推送來自阿裡雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。
李智:用數學來了解世界

繼續閱讀