天天看點

Netflix視訊品質感覺評價模型之路

盡管主觀評定被認為是最佳的視訊品質評價方式,但對于每天新增海量視訊的平台而言,采用人工方式評定是不現實的。Netflix實踐出自己的畫質評價模型——VMAF。本文詳細闡述了VMAF的實作與演進,LiveVideoStack對其進行了摘譯。如果您對音視訊技術的未來有實踐分析與洞見,歡迎聯系 [email protected]

文 / Zhi Li,Anne Aaron,Ioannis Katsavounidis,Anush Moorthy,Megha Manohara

譯 / 鴻蒙

在Netflix公司,我們很關注視訊品質,同時也關注如何規模化地精确評價視訊品質。我們提出了視訊多方法評估融合(VMAF)評價模型——試圖反映觀衆對我們流媒體品質的感受。目前,我們正在将這個工具開源,并邀請研究界就這個重要課題與我們進行合作。

我們追求高品質的視訊呈現

我們努力為會員提供絕佳的觀看體驗:流暢的視訊播放、沒有令人厭惡的圖像失真。在我們的努力中,非常重要的一部分工作是,在考慮到使用者網絡帶寬和觀看裝置的限制下,我們盡可能地感覺并提供最佳品質的視訊流。我們一直在通過各種各樣的方法努力實作這一目标。

首先,我們在視訊編碼領域進行創新。流式視訊需要使用H.264 / AVC、HEVC和VP9等标準進行壓縮,才能以合理的比特率進行流式傳輸。當視訊被壓縮太多或壓縮不當時,這些技術會引入品質損傷,即壓縮失真。專家稱他們為“阻塞”、“響鈴”或“蚊子噪音”,但對于觀衆來說,就是視訊看起來不對勁。為此,我們定期比較編解碼器提供商的壓縮效率、穩定性和性能,并整合市場上最好的解決方案。我們評估不同的視訊編碼标準,以確定我們保持在壓縮技術的前沿。例如,我們比較H.264 / AVC、HEVC和VP9,并将在近期實驗由開放媒體聯盟(AOM)和聯合視訊探索組(JVET)開發的下一代解碼器。即使在既定的标準之内,為了充分利用現有的工具集,我們仍然繼續在解決方案和速率配置設定算法上進行實驗(請參閱标題編碼優化項目)。

我們将Netflix視訊流編碼在分布式雲媒體管道中,友善擴充以滿足更多業務需求。為了最大限度地減少不良視訊源傳遞、軟體報錯和雲執行個體不可預測性(瞬态錯誤)等影響,我們對管道中的各個點進行自動品質監控。通過這種監控,我們試圖檢測視訊從進入管道,到經過每個轉換點的品質問題。

最後,當我們在Netflix生态系統的各個領域進行疊代(例如自适應流算法或内容傳遞網絡算法)并運作A / B測試時,我們努力確定通過系統的改良,可以維持或改進視訊品質。例如,旨在減少回放延遲或重新緩沖的自适應流算法的改進,不應該降低流會話中的整體視訊品質。

上述所有具有挑戰性的工作都取決于一個基本前提:我們可以準确有效地衡量大量視訊流的感覺品質。一般來說,在視訊編解碼器的開發和研究中,廣泛使用兩種方法來評估視訊品質:1)視覺主觀測試和2)簡單測度名額的計算,例如PSNR或最近推出的SSIM[1]。

毫無疑問,人工目視檢查在操作上和經濟上都是不可行的。

基于我們産品的大吞吐量,使用A / B測試來監測和編碼研究實驗。圖像品質評估是一個老問題,已經有許多簡單和實用的解決方案。均方差(MSE)、峰值信噪比(PSNR)和結構相似性指數(SSIM)是最初為圖像設計的測度名額的例子,後來擴充到視訊。這些測度名額經常用于在編解碼器(“in-loop”)内優化編碼決策和報告編碼視訊的最終品質。盡管該領域的研究人員和工程師都很清楚PSNR并不能一貫地反映人類的感覺,但它仍然是編解碼器比較和編解碼器标準化工作的事實标準。

建立Netflix相關資料集

我們采用資料驅動的方法來評估視訊品質評價算法。第一步是采集一個與我們用例相關的資料集。盡管用于設計和測試視訊品質名額的公開資料庫有很多,但它們往往缺乏與實用流媒體服務(如Netflix)相關的内容多樣性。它們中的許多在源的品質和編碼方面已經不再是最先進的技術,例如,它們包含标準清晰度(SD),且僅涵蓋較早的壓縮标準。此外,由于評估視訊品質要比測度壓縮失真普遍得多,是以現有資料庫試圖捕獲更大範圍的失真,這些失真不僅由壓縮引起,還可能由傳輸損耗、随機噪聲和幾何變換等引起。例如,觀看黑白監控裝置傳輸的低分辨率視訊(640×480),與在客廳中觀看自己喜愛的Netflix節目相比,呈現出明顯不同的觀看體驗。

Netflix的流媒體服務湧現出一系列獨特的挑戰,也為設計精确反映流媒體視訊品質的感覺名額提供了機會。例如:

  • 視訊源的特點。Netflix提供大量的電影和電視節目,這些節目涵蓋了兒童内容、動畫、快速移動動作影片、帶有原始素材的紀錄片等不同類型。此外,它們還呈現出不同的低級源特征,如膠片噪點、傳感器噪聲、計算機紋理、純黑場景或亮色彩。過去開發的許多品質測度名額都沒有經過調整來适應源内容的上述巨大差異。例如,許多現有的資料庫缺少動畫内容,并且大多數都沒有考慮膠片噪點,即便膠片噪點是一種在專業娛樂内容中非常普遍的信号特征。
  • 失真的來源。由于Netflix視訊流使用可靠的傳輸控制協定(TCP)傳輸,是以資料包丢失和bit錯誤不是視覺失真的來源。編碼過程中留下的兩種類型的失真,最終影響觀看者的體驗品質(QoE):壓縮失真(由于是有損壓縮)和縮放失真(在較低比特率時,視訊會在壓縮之前進行降采樣,并在使用者裝置上進行升采樣)。通過定制一個品質測度名額來僅覆寫壓縮和縮放失真,用通用性換取準确性,其準确性有望超越一般标準。

為了建構更适合Netflix用例的資料集,我們從Netflix目錄中流行的電視節目和電影中選擇了每個長度為6秒鐘的34個源片段(也稱為參考視訊)樣本,并将它們與選擇的公共可用片段進行整合。源片段涵蓋了廣泛的進階特征(動畫、室内/室外、攝像頭運動、臉部特寫、人物、水、明顯突出、物體數量)和低級特征(膠片噪點、亮度、對比度、紋理、運動、顔色變化、顔色豐富度、清晰度)。使用源片段,我們編碼的H.264 / AVC視訊流,分辨率從384×288到1920×1080,比特率從375 kbps到20,000 kbps,輸出了約300個有損的視訊。這掠過了廣闊的視訊比特率和分辨率範圍,反映了Netflix會員網絡狀況的巨大差異。

然後,我們進行主觀測試,以确定非專業觀察者如何評估編碼視訊相對于源剪輯的失真。在标準化的主觀測試中,我們使用的方法被稱為雙重刺激有損縮放(DSIS)。在受限制的室内照明下(按照建議書ITU-R BT.500-13[2]的規定),參考視訊和失真視訊在消費級電視機上依次播放。如果失真視訊以比參考視訊更小的分辨率進行編碼,則視訊會首先被放大到與源視訊分辨率相同後,再在電視上顯示。觀察者坐在類似起房間的沙發上,以1(失真令人厭煩)到5(失真無法察覺)進行評分。所有觀察者的分數合起來為每個視訊産生一個差分平均意見分數或DMOS,并在0到100的範圍内歸一化,其中,參考視訊的分數為100。本文将參考視訊、失真視訊和DMOS分數作為NFLX視訊資料集。

傳統的視訊品質測度名額

廣泛使用的傳統視訊品質名額如何與NFLX視訊資料集的“事實上”的DMOS分數相關聯?

一個視覺例子

從上圖,我們看到從4個不同的失真視訊中捕獲的靜态幀的部分; 頂部的兩個視訊的PSNR值約31dB,而底部的兩個視訊的PSNR值約34dB。然而,人們幾乎不能注意到“人群”視訊的差異,而兩個“狐狸”視訊的差别卻很明顯。人類觀察者将這兩個“人群”視訊DMOS分數評為82(頂部)和96(底部),而将兩個“狐狸”視訊的DMOS分數分别評為27(頂部)和58(底部)。

詳細的結果

下面的圖表是散點圖,x軸上表示觀察者的DMOS分數,y軸上表示不同品質測度名額的預測得分。這些圖是從NFLX視訊資料集的一個標明子集中獲得的,我們将其标記為NFLX-TEST(詳見下一節)。每個點代表一個失真視訊。我們繪制了四個品質名額的結果:

  • PSNR表示亮度分量
  • SSIM [1]
  • Multiscale FastSSIM [3]
  • PSNR-HVS [4]

有關SSIM,Multiscale FastSSIM和PSNR-HVS的更多詳細資訊,請參見參考文獻部分中列出的出版物。對于這三個度量名額,我們使用了Daala代碼庫[5]中的實作,是以後面圖中的标題字首為“Daala”。

注意:具有相同顔色的點對應于源自相同參考視訊的失真視訊。由于主觀差異性和參考視訊歸一化到100,一些DMOS分數可能超過100。

從圖中可以看出,這些名額不能始終如一地預測觀察者的DMOS分數值。例如,關注左上角的PSNR圖,對于大約35dB的PSNR值,“事實上”的DMOS值在從10(失真令人厭煩)到100(失真無法察覺)的範圍内變化。對于SSIM和Multiscale FastSSIM名額,可以得出類似的結論,其中接近0.90的分數可以對應于10到100的DMOS值。在每個圖上,我們報告了Spearman等級相關系數(SRCC),Pearson乘積矩相關系數(PCC)和每個名額的均方根誤差(RMSE)資料,這些資料是按照ITU-R BT.500-13 [2]附錄3.1的規定,在非線性邏輯拟合後計算的。SRCC和PCC值接近1.0、RMSE值接近于0是理想的。在這四個名額中,PSNR-HVS表現出最好的SRCC、PCC和RMSE值,但仍然缺乏預測的準确性。

為了在各種各樣的内容中都能實作有意義的表現,測度名額應該表現出良好的相對品質分數,即,測度名額中的增量應該提供關于感覺品質增量的資訊。在下面的圖表中,我們選擇了三個典型的參考視訊,一個高噪聲視訊(藍色),一個CG動畫(綠色)和一個電視劇(鐵鏽色),并繪制了不同失真視訊的預測分數與DMOS值。要想保證相對品質得分有效,在品質曲線的相同範圍内的不同剪輯之間的斜率最好恒定。例如,參考下面的PSNR圖,在34 dB到36 dB的範圍内,對于電視劇而言,大約為2分貝的PSNR值變化對應于約50(50至100)的DMOS值變化,但是對于CG動畫在相同範圍内,大約2分貝的PSNR值變化對應于小于20(40至60)的DMOS值變化。雖然SSIM和FastSSIM在CG動畫和電視劇剪輯中呈現出更一緻的斜率,但它們的表現仍然欠佳。

總而言之,我們發現傳統名額并不适用于我們的内容。為了解決這個問題,我們采用了基于機器學習的模型來設計一個測度名額,以反映人類對視訊品質的感覺。這一名額将在下一節中讨論。

我們的方法:視訊多方法評估融合(VMAF)模型

在與南加州大學的C.-CJ Kuo教授及其團隊的研究合作基礎上[6] [7],我們開發了視訊多方法評估融合,或VMAF,通過結合多個基本品質測度名額來預測主觀品質。基本原理是每個基本測度名額都可能在源内容特征、失真類型和失真度方面有自己的長處和短處。通過使用機器學習算法将基礎測度名額“融合”為最終測度名額 —— 在我們的例子中,支援向量機(SVM)回歸器 —— 為每個基本測度名額配置設定權重,最終測度名額可以保留單個名額的所有優勢,并提供更準确的最終得分。機器學習模型使用通過主觀實驗獲得的意見分數(在我們的例子中是NFLX視訊資料集)進行訓練和測試。

目前版本的VMAF算法和模型(表示為VMAF 0.3.1)作為VMAF開源軟體開發工具包的一部分釋出,使用支援向量機(SVM)回歸[8]并融合以下基本測度名額:

  • 視覺資訊保真度(VIF) [9]。當視訊品質是衡量資訊保真度損失的一個補充時,VIF是一個良好的圖像品質測度名額。在原來的形式中,VIF分數用兼有四個尺度的保真度損失來衡量。在VMAF中,我們采用VIF的修改版本,其中每個尺度的保真度損失都被作為基本測度名額包含在内。
  • 細節損失名額(DLM) [10]。DLM是基于單獨測量影響内容可見性的細節丢失和分散觀看者注意力的備援失真的圖像品質測度名額。原測度名額結合了DLM和加法失真度量(AIM)以産生最終得分。在VMAF中,我們隻采用DLM作為基本測度名額。特别要注意一些特殊情況,如黑框,原公式的數值計算就不再适用了。

VIF和DLM都是圖像品質測度名額。我們進一步介紹以下簡單的功能來說明視訊的時間特性:

  • 動向。這是相鄰幀之間時間差異的簡單度量。這是通過計算亮度分量的平均絕對像素差來實作的。

這些基本名額和特征是通過疊代測試和驗證從其他候選者中選擇的。

我們将VMAF的準确度與上述其他品質測度名額進行比較。為了避免将VMAF和資料集進行過度拟合,我們首先将NFLX資料集分成兩個子集,稱為NFLX-TRAIN和NFLX-TEST。兩組具有不重疊的參考剪輯片段。然後用NFLX-TRAIN資料集訓練SVM回歸器,并在NFLX-TEST上進行測試。下面的圖表顯示了NFLX-TEST資料集和標明的參考剪輯片段 —— 高噪聲視訊(藍色)、CG動畫(綠色)和電視劇(鐵鏽色)的VMAF測度名額的性能。為了便于比較,我們重複PSNR-HVS的曲線,這是前面章節中表現最好的名額。很顯然,VMAF表現更好。

我們還将VMAF 與具有可變幀延遲的視訊品質模型(VQM-VFD,許多人認為這是該領域的最新技術)[11]進行了比較。VQM-VFD是一種使用神經網絡模型将低級特征融合為最終測度名額的算法。它在本質上類似于VMAF,不同之處在于它提取較低級别的特征,如空間和時間梯度。

很明顯,VQM-VFD在NFLX-TEST資料集上的性能接近VMAF。由于VMAF方法允許将新的基本名額納入其架構,是以VQM-VFD也可以作為VMAF的基本名額。

下表列出了在NFLX-TEST資料集上融合了不同組合的基本測度名額後,用SRCC、PCC和RMSE值來表示的VMAF模型的性能,以及VMAF 0.3.1的最終性能。我們還列出了通過VQM-VFD增強後的VMAF的性能。結果證明了我們的預設,即高性能視訊品質測度名額的智能融合會增強其與人類感覺的相關性。

NFLX-TEST資料集

結果小結

在下面的表格中,我們給出了前面讨論的不同名額的SRCC、PCC和RMSE值。資料集基于NLFX-TEST資料集和三個流行的公共資料集:VQEG HD(僅用于vqeghd3集合)[12]、實時視訊資料庫[13]和實時移動視訊資料庫[14]。結果顯示除了實時視訊資料庫之外,VMAF 0.3.1的表現都優于其他名額。與性能最好的VQM-VFD相比,VMAF也仍然很有競争力。由于VQM-VFD在四個資料集之間表現出良好的相關性,我們正在試驗VQM-VFD作為VMAF的基本度量名額時的性能; 雖然它不是開源版本VMAF 0.3.1的一部分,但它可能被內建在VMAF的後續版本中。

  • LIVE資料集*

*僅用于壓縮失真(H.264 / AVC和MPEG-2視訊)

  • VQEGHD3資料集*

*SRC01到SRC09的源内容和與流相關的失真HRC04、HRC07,以及HRC16到HRC21

  • LIVE Mobile資料集

VMAF開發套件(VDK)開源包

為了通過網際網路提供高品質的視訊服務,我們相信業界需要具有良好感覺的視訊品質測度名額模型,這些名額使用起來實用而且易于大規模部署。我們已經開發了VMAF來幫助我們解決這個問題。今天,基于 Apache License Version 2.0,我們在Github上開放了VMAF開發工具包(VDK 1.0.0)。通過對VDK開源,我們希望它能随着時間的推移而不斷提高性能。

VDK核心中的特征提取(包括基本測度名額計算)部分是計算密集型的,是以為了效率而使用C編寫。控制代碼是用Python編寫的,便于快速原型設計。

該軟體包帶有一個簡單的指令行界面,允許使用者以簡單模式(run_vmaf指令)或批處理模式(可選擇啟用并行執行的run_vmaf_in_batch指令)運作VMAF。而且,由于特征提取是最“昂貴”的操作,是以使用者還可以将特征提取結果存儲在資料存儲器中,以便稍後再使用它們。

該軟體包還提供了一個VMAF模型的定制架構,該架構基于以下部分:

  • 用于訓練的視訊資料集
  • 基本名額和其他要使用的功能
  • 回歸器及其超參數

run_training指令接受三個配置檔案:一個資料集檔案(其中包含有關訓練資料集的資訊)、特征參數檔案和回歸器模型參數檔案(包含回歸器超參數)。以下是一組示例代碼,代碼中定義了資料集、一組標明特征、回歸器及其超參數。

##### define a dataset #####

dataset_name = ‘example’

yuv_fmt = ‘yuv420p’

width = 1920

height = 1080

ref_videos = [

{‘content_id’:0, ‘path’:’checkerboard.yuv’},

{‘content_id’:1, ‘path’:’flat.yuv’},

]

dis_videos = [

{‘content_id’:0, ‘asset_id’: 0, ‘dmos’:100, ‘path’:’checkerboard.yuv’}, # ref

{‘content_id’:0, ‘asset_id’: 1, ‘dmos’:50, ‘path’:’checkerboard_dis.yuv’},

{‘content_id’:1, ‘asset_id’: 2, ‘dmos’:100, ‘path’:’flat.yuv’}, # ref

{‘content_id’:1, ‘asset_id’: 3, ‘dmos’:80, ‘path’:’flat_dis.yuv’},

##### define features #####

feature_dict = {

# VMAF_feature/Moment_feature are the aggregate features

# motion, adm2, dis1st are the atom features

‘VMAF_feature’:[‘motion’, ‘adm2’],

‘Moment_feature’:[‘dis1st’], # 1st moment on dis video

}

##### define regressor and hyper-parameters #####

model_type = “LIBSVMNUSVR” # libsvm NuSVR regressor

model_param_dict = {

# ==== preprocess: normalize each feature ==== #

‘norm_type’:’clip_0to1', # rescale to within [0, 1]

# ==== postprocess: clip final quality score ==== #

‘score_clip’:[0.0, 100.0], # clip to within [0, 100]

# ==== libsvmnusvr parameters ==== #

‘gamma’:0.85, # selected

‘C’:1.0, # default

‘nu’:0.5, # default

‘cache_size’:200 # default

最後,FeatureExtractor基類可以擴充為開發定制的VMAF算法。這可以通過嘗試其他可用的,或發明新的基本名額和功能來進一步一完善。類似地,TrainTestModel基類可以擴充來測試其他回歸模型。請參閱CONTRIBUTING.md更多細節。使用者還可以使用現有的開源Python庫(如scikit-learn [15],cvxopt [16]或tensorflow [17])來嘗試其他機器學習算法。軟體包中包含了內建scikit-learn随機森林回歸器的示例。

VDK軟體包包括具有選擇特征的VMAF 0.3.1算法和基于NFLX視訊資料集收集的主觀評分訓練過的SVM模型。我們還邀請社群使用該軟體包來開發一些改進功能和回歸器,以便進行感覺視訊品質評估。我們鼓勵使用者在其他資料集上測試VMAF 0.3.1,并幫助改進我們的用例,并将其擴充到其他用例中。

品質評估的開放性問題

  • 觀看條件。Netflix支援包括智能電視、遊戲機、機頂盒、電腦、平闆電腦和智能手機在内的數千種有源裝置,為我們的會員帶來廣泛的觀看條件。觀看設定和顯示裝置可以顯著影響視訊品質的感覺。例如,如果一個Netflix會員在4K 60英寸的電視機上觀看以1Mbps編碼的720p電影,則會和在5英寸智能手機上觀看相同視訊,有對視訊品質不同的感覺。目前的NFLX視訊資料集涵蓋了單一的觀看條件 —— 以标準化的距離觀看電視。為了加強VMAF,我們在其他觀看條件下進行主觀測試。有了更多的資料,我們可以推廣算法,使得觀看條件(顯示尺寸大小、螢幕距離等)可以輸入到回歸器。
  • 時間池。我們目前實作的VMAF可以計算每幀的品質分數。在許多使用情況下,最好暫時采集這些分數,以便可以在較長時間尺度上彙總傳回單個分數值。例如,要獲得場景的分數,較為可取的就是使用正常時間段的分數或使用整個電影的分數。我們目前的方法是用一個簡單的時間池,對池内每幀的分數值求算術平均值。但是,這種方法有“隐藏”差幀的風險。給予較低分數幀更多權重的池(彙集)算法有可能會更準确地表達人類的感覺。當使用彙總分數來比較幀之間的不同品質波動編碼或者優化編碼或流會話作為目标測度名額時,良好的池(彙集)機制是特别重要的。VMAF和其他品質度量名額下的準确感覺時間池機制仍然是一個開放和具有挑戰性的問題。
  • 一緻的名額。由于VMAF包含全參考基本測度名額,VMAF高度依賴于參考視訊的品質。不幸的是,在Netflix目錄中的視訊源品質可能并不一緻。信号源以SD到4K的分辨率進入我們的系統。即使在相同的分辨率下,可用的最佳信号源也可能遭受某些視訊品質失真。是以,比較(或總結)不同标題視訊的VMAF分數可能是不準确的。例如,當從SD源産生的視訊流達到99(100)的VMAF得分時,其決不會與來自HD源的相同得分(99)的視訊具有相同的感覺品質。從品質監測的角度看,我們非常希望能夠計算出所有視訊源的絕對品質分數。畢竟,當觀衆觀看Netflix節目時,除了傳送到螢幕上的圖像外,他們沒有任何參考。我們希望有一個自動的方式來預測使用者對接收的視訊的品質的看法,并且這種方式可以考慮到在該螢幕上最終呈現的視訊的所有因素。

總結

我們開發了VMAF 0.3.1和VDK 1.0.0軟體包,來幫助我們向會員提供最優質的視訊流服務。作為我們不斷追求品質的一部分,我們的團隊每天都在使用它來評估視訊編解碼器以及編碼參數和政策。VMAF以及其他名額模型已經被內建到我們的編碼管道中,以改進我們的自動化品質控制(QC)。我們正在使用VMAF作為用戶端名額模型之一,來監控系統端的A / B測試。

在當今的網際網路環境中,提高視訊壓縮标準和在實際編碼系統中做出明智的選擇是非常重要的。我們相信,使用傳統測度名額模型 —— 不總是與人類感覺相關的測度名額模型 —— 可能會阻礙視訊編碼技術的真正進步。當然,總是依靠人工視覺測試也肯定是行不通的。VMAF是我們試圖解決這個問題的一種嘗試,使用我們自己的内容樣本來幫助設計和驗證算法。類似于業界共同開發新的視訊标準時那樣,我們也邀請社群就改進視訊品質措施進行公開合作,最終目标是實作更高效的帶寬使用和呈現視覺上令人滿意的視訊。

緻謝

我們感謝以下人士對VMAF項目的幫助:Joe Yuchieh Lin,Eddy Chi-Hao Wu,C.-C Jay-Kuo教授(南加州大學),Patrick Le Callet教授(南特大學)和Todd Goodall。

參考文獻

  1. Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image Quality Assessment: From Error Visibility to Structural Similarity,” IEEE Transactions on Image Processing, vol. 13, no. 4, pp. 600–612, Apr. 2004.
  2. BT.500 : Methodology for the Subjective Assessment of the Quality of Television Pictures, https://www.itu.int/rec/R-REC-BT.500
  3. M.-J. Chen and A. C. Bovik, “Fast Structural Similarity Index Algorithm,” Journal of Real-Time Image Processing, vol. 6, no. 4, pp. 281–287, Dec. 2011.
  4. N. Ponomarenko, F. Silvestri, K. Egiazarian, M. Carli, J. Astola, and V. Lukin, “On Between-coefficient Contrast Masking of DCT Basis Functions,” in Proceedings of the 3 rd International Workshop on Video Processing and Quality Metrics for Consumer Electronics (VPQM ’07), Scottsdale, Arizona, Jan. 2007.
  5. Daala codec. https://git.xiph.org/daala.git/
  6. T.-J. Liu, J. Y. Lin, W. Lin, and C.-C. J. Kuo, “Visual Quality Assessment: Recent Developments, Coding Applications and Future Trends,” APSIPA Transactions on Signal and Information Processing, 2013.
  7. J. Y. Lin, T.-J. Liu, E. C.-H. Wu, and C.-C. J. Kuo, “A Fusion-based Video Quality Assessment (FVQA) Index,” APSIPA Transactions on Signal and Information Processing, 2014.
  8. C.Cortes and V.Vapnik, “Support-Vector Networks,” Machine Learning, vol. 20, no. 3, pp. 273–297, 1995.
  9. H. Sheikh and A. Bovik, “Image Information and Visual Quality,” IEEE Transactions on Image Processing, vol. 15, no. 2, pp. 430–444, Feb. 2006.
  10. S. Li, F. Zhang, L. Ma, and K. Ngan, “Image Quality Assessment by Separately Evaluating Detail Losses and Additive Impairments,” IEEE Transactions on Multimedia, vol. 13, no. 5, pp. 935–949, Oct. 2011.
  11. S. Wolf and M. H. Pinson, “Video Quality Model for Variable Frame Delay (VQM_VFD),” U.S. Dept. Commer., Nat. Telecommun. Inf. Admin., Boulder, CO, USA, Tech. Memo TM-11–482, Sep. 2011.
  12. Video Quality Experts Group (VQEG), “Report on the Validation of Video Quality Models for High Definition Video Content,” June 2010, http://www.vqeg.org/
  13. K. Seshadrinathan, R. Soundararajan, A. C. Bovik and L. K. Cormack, “Study of Subjective and Objective Quality Assessment of Video”, IEEE Transactions on Image Processing, vol.19, no.6, pp.1427–1441, June 2010.
  14. A. K. Moorthy, L. K. Choi, A. C. Bovik and G. de Veciana, “Video Quality Assessment on Mobile Devices: Subjective, Behavioral, and Objective Studies,” IEEE Journal of Selected Topics in Signal Processing, vol. 6, no. 6, pp. 652–671, Oct. 2012.
  15. scikit-learn: Machine Learning in Python. http://scikit-learn.org/stable/
  16. CVXOPT: Python Software for Convex Optimization. http://cvxopt.org/

TensorFlow. https://www.tensorflow.org/

移動音視訊開發進階沙龍——暨新書分享會

2018年伊始,短視訊與遊戲對直播的激發還未平息,“沖頂大會”的火爆再次激發了直播行業的熱潮,全新玩法的背後隐藏着的是超低延遲的實時互動。此外,AR/VR/MR的持續火熱也将成為2018年新一波技術趨勢。而手機App已漸漸占據人們日常生活的大部分時間,移動端開發也就顯得至關重要。

音視訊技術社群LiveVideoStack策劃『移動音視訊開發進階』沙龍,希望與大家分享移動端音視訊技術開發實踐經驗。本次活動由LiveVideoStack與華章科技聯合主辦,邀請《移動音視訊開發進階——基于Android與iOS平台的實踐》作者展曉凱,Hulu全球進階研發經理傅徳良,暴風影音首席架構師鮑金龍,FFmpeg Maintainer/顧問劉歧參與分享交流。

掃描上方二維碼報名