天天看點

淘寶直播火爆的背後,阿裡做了什麼?

淘寶直播火爆的背後,阿裡做了什麼?

作者 | 葉琰

來源 | 阿裡技術公衆号

淘寶直播火爆的背後,阿裡做了什麼?

國際視訊标準簡史

上圖顯示的是兩個重量級國際視訊标準組織:國際通信聯盟ITU-T以及國際标準化組織ISO/IEC MPEG。這兩個巨頭從30年前就開始做視訊标準,到現在已經是做到第6代了。其中這兩大巨頭聯合制定的幾款視訊标準對國際上視訊産業尤其有非常深遠的影響。比如MPEG2,它完美的幫助視訊産業完成從模拟電視到數字電視的重要轉型;H264對業界的貢獻就更是不言而喻,大家都知道無論什麼終端(電視、手機、電腦)和什麼服務(廣播,衛星,網際網路,視訊會議等)基本上全面支援這個标準;H265對高清超高清視訊和HDR視訊的普及做出了重要的貢獻。最新出爐的第6代标準VVC,除了服務現在已有的應用,降低帶寬成本提高使用者體驗,同時它也可以賦能5G下新興的視訊應用,像AR/VR、360度全景視訊以及超高清的4K、8K等。

為什麼我們要這樣堅持不懈的做6代視訊标準?每次标準更新換代時,視訊産業鍊需要從服務端内容生産商一直到最後的消費者,包括中間每個環節上打通端到端的生态系統,每一個環節都要去做更新。因為視訊标準更新換代需要付出這麼大的努力,是以我們對每一代新标準都會有一個基本的要求:相同的視訊品質下編碼效率翻倍,也就是說相比上一代,新标準的帶寬節省必須達到50%。

先來看一下VVC标準會經常碰到的一些詞:

  • VVC:Versatile Video Coding,Versatinle指靈活多功能的特性
  • VTM:測試模型參考軟體平台
  • JVET:ITU-T和ISO/IEC MPEG的聯合委員會
  • H.266:VVC是兩個國際标準組織的雙标,H.266是VVC在ITU-T的标準編号
淘寶直播火爆的背後,阿裡做了什麼?
  • 曆時近3年的pre-standard技術開發及積累工作,JEM(Joint Exploration Model)參考軟體平台。
  • 相同PSNR名額下,JEM-7.0相對HEVC的參考平台HM達到34%的碼率節省,為正式标準化提供了重要的技術支撐。
  • 同時,360Lib參考軟體平台為全景視訊的處理、壓縮和品質評估提供了全套完整的工作流程。

在VVC正式标準化還沒開始之前,國際标準組織和成員公司就進行了多年的技術預研和技術積累。從上圖可以看到,從2015年初開始,JVET經過了曆時兩年半的編碼技術預研,搭建并完善了JEM參考軟體平台;到2017年中,在相同的PSNR的名額下,JEM相對HEVC已經可以達到34%的碼率節省,為正式開始制定下一代視訊标準提供了有力的技術支撐和性能證明。

另外,在JVET積累下一代編碼技術的預研過程中,由于AR/VR等新興應用的影響,JVET也對360度全景視訊進行了充分研究。為此,JVET建立了360Lib參考軟體平台,和JEM相結合,為全景視訊的處理,壓縮以及品質評估提供了一套完整的工作流程和性能分析的能力。2017年10月,VVC在JEM和360Lib基本上成熟時,ITU-T和ISO/IECMPEG這兩個标準組織發表了聯合技術征集書,裡面包括3中主要視訊格式:标準動态SDR視訊(主流視訊格式)、高動态HDR視訊,以及360全景視訊。這也是6代标準以來第一個考慮到多種視訊格式的技術征集書。

2018年4月,全世界一共有32個機關送出了23份征求書的響應,在相同PSNR的情況下,最佳的響應提供了40%以上的碼率節省,從此VVC标準化正式啟程。2018年4月至2020年的7月,經過兩年多的努力,VVC的第一版正式定稿。

達摩院視訊标準團隊在2019年年初時候開始參與VVC的标準制定,曆時一年半,送出了很多技術提案被采納到VVC标準中,為VVC标準的制定做出了重要的貢獻。

淘寶直播火爆的背後,阿裡做了什麼?

上面圖中的藍色部分代表VVC參考軟體平台VTM-1.0到VTM-9.0的性能演進,以及VVC相對HEVC在高清超高清視訊上的性能增益。我們可以看到,VVC兩年多的标準化程序主要分成兩個階段:前半階段主要注重增加先進編碼工具來提高VVC的性能增益,是以在VVC标準化的第一年期間壓縮性能迅速上升;在後半階段,标準委員會JVET更加注重VVC标準設計上的細化工作,注重各個VVC編碼工具之間的設計融合,保證低功耗高效的軟硬體實作,是以在VVC标準化的第二年中,我們也可以看到VVC的性能增益逐漸趨于穩定。

另外上圖還提供了VVC參考軟體平台VTM-1.0到VTM-9.0的複雜度演進過程。紅色線顯示的是編碼時間,大家可以看到,随着編碼性能增益的提升,編碼複雜度的提升也很快。灰色線代表解碼器的複雜度,相比HEVC來說一直維持在兩倍不到,這說明VVC解碼器的複雜度是非常可接受的。如何做一個好的VVC實時編碼器,在最低複雜度的前提下拿到最高的性能,中間有很多技術和學問,這也是為什麼後面手淘和達摩院要共同開發這個項目的重要原因。

淘寶直播火爆的背後,阿裡做了什麼?

上圖列舉了30多種VVC編碼工具,在混合視訊編碼的架構下,所有的功能子產品都增加了新的工具,用以提升VVC的壓縮性能。另外VVC主打靈活多功能的特點,是以在标準制定過程中也一直考慮到一些重要特定場景的視訊内容,比如針對螢幕内容以及360度全景視訊的編碼工具。

淘寶直播火爆的背後,阿裡做了什麼?

上圖顯示了VVC中各個編碼工具對性能增益以及複雜度的貢獻。在這個圖上,如果一個編碼工具落在圖的右上方,則說明它的壓縮性能好、同時複雜度低。但是我們可以看到其實沒有免費的午餐,實際資料顯示,編碼性能好的工具,複雜度也一般相對較高,比如ALF。是以,我們在開發實際商用編碼器的時候,如何合理選擇使用這些編碼工具,對編碼器的在複雜度和性能上的可行性至關重要。另外,從上圖我們可以看到在VVC的衆多編碼工具中,有8個性能增益可以超過1%,其他相對比較小。

淘寶直播火爆的背後,阿裡做了什麼?

上圖顯示了VVC在主流SDR視訊上的性能增益。對于高清、超高清視訊來說,在相同的PSNR名額下,VVC相對HEVC可以節省38.9%帶寬,對于圖檔編碼來說,這個性能增益為26.7%。

淘寶直播火爆的背後,阿裡做了什麼?

上面的表格中顯示的碼率節省并沒有達到50%,那麼VVC做為新一代的标準,是否達到了效率翻倍的設計目标?因為視訊品質評判最權威的依據是主觀品質,是以在每一代标準定稿前後,都會開展正式的主觀品質驗證工作,而每一代标準最後的帶寬節省也是在相同的主觀品質下來進行衡量。下面這個圖顯示了VVC主觀品質驗證工作在兩個超高清4K視訊通過非常嚴格的主觀品質評測方法得到的初步資料,我們可以看到,相同的主觀品質下,VVC相比HEVC的碼率節省超過50%。

淘寶直播火爆的背後,阿裡做了什麼?

主流HDR視訊序列,PQ & HLG,VTM-9.0 vs. HM16.18

淘寶直播火爆的背後,阿裡做了什麼?

360全景視訊,8K & 4K,VTM-8.0 / HM-16.20 + 360Lib

更強的codec(VVC) + 更先進的投影格式(GCMP)

VVC有多功能靈活的特性,上圖為HDR視訊和360全景視訊的客觀性能。我們可以看到在相同客觀性能下,VVC在兩種主流HDR視訊(PQ和HLG)内容的碼率節省達到30%,在360全景視訊上的碼率節省達到32.5%。其中在360視訊上的增益主要從兩方面得到:一方面VVC代替HEVC,有更強大的編碼核心,另外一部分的性能增益是通過使用更加先進的投影格式得來的。另外,上面的資料隻顯示了客觀性能下的碼率節省,針對HDR和360全景視訊的主觀評測工作也在有序開展,其中360全景視訊的主觀評測工作也由阿裡标準團隊主要牽頭,預計明年初會有正式報告出爐。

達摩院視訊标準團隊參加VVC标準制定的過程中,在編碼技術方面,貢獻了和低延時實時通信、螢幕内容、無損壓縮、高動态範圍的壓縮、幀間預測、高層文法等方面相關的技術。

同時,我們團隊成員擔任JVET大會和分會的代理主持人、VCC性能驗收工作中全景視訊方面的負責人、測試模型算法描述文檔編輯、專題讨論組(AHG)主席、也是若幹核心實驗的負責人,為阿裡巴巴在國際視訊标準組織中建立了一定的影響力。

下面來看一下最新視訊業界趨勢以及VVC在這些視訊趨勢上的應用。

淘寶直播火爆的背後,阿裡做了什麼?

通過上面的行業報告對網際網路各種類型的資料量的預測可以看到,視訊将是永遠的帶寬大戶;相比去年的餅狀圖(左邊),5年後以後不光整體資料量會有5倍的增長,而且視訊在整體資料量的占比也将持續快速增長。

視訊資料的持續快速增長主要有四個原因:一、視訊更加豐富,不論是電商(淘寶)、社交、娛樂(優酷)、還是新聞,包括智慧城市這些新興應用,視訊消費形式越來越多;二、大家越來越習慣随時随地,唾手可得的視訊消費;三、消費者對視訊的信号要求越來越高,由高清到超高清;最後,大家希望視訊形式更加新穎,是以基于浸入式視訊的AR/VR應用會快速興起。

拿淘寶直播來講,帶寬成本占比很大。從日活和平均時長的角度來看,不到一年的時間增長非常迅速。月度帶寬成本,有數量級的增長,占了整體業務成本中非常重要的一部分。現在的直播畫面也很複雜,運動也較多,大家對主播的清晰度要求也越來越高,對分辨率和幀率等方面的技術名額提高了要求。目前淘寶已經将很有挑戰性的視訊内容做到平均800Kpbs的帶寬,從H265編碼器的角度來看,已經做到極緻壓縮。如果想要再顯著的降低帶寬成本,隻能通過視訊标準的更新換代來做到。

阿裡266項目的主要目标是服務淘寶直播,希望在明後年的雙11能夠做到淘寶直播實時編碼,同時相對阿裡265來說壓縮性能有顯著的提升。

Fraunhofer HHI是一家非常有聲望的德國研究機構,做了很多代的視訊标準開發,對VVC标準開發也做出了很大的貢獻。在今年9月公布了他們的開源VVC編解碼器。我們對這個開源VVC編解碼器做了一下實測,在淘寶直播的視訊上,編碼速度隻能到達每秒0.5幀,和我們的實時編碼要求相距甚遠。而且對淘寶直播這樣的應用來說,在解碼器方面必須有最好的移動端優化。這些原因讓我們更加認識到,我們需要自己去做一流的編解碼器,能夠高效服務我們集團内部業務,這是一件非常重要的事情,也是阿裡266項目的主要目标。

最後我們再看一下MPEG中其他相關的視訊标準,以及在其它視訊标準組織的工作。前面我們講了新穎的視訊是一個大家要關注的主要視訊趨勢之一,這個主要是指浸入式視訊。MPEG看到這個視訊業界的重要趨勢,除了制定VVC新一代視訊壓縮标準以外,還制定了一整套的MPEGImmersive浸入式媒體标準系列,其中包括點雲壓縮标準,六自由度視訊和音頻壓縮标準,以及一些浸入式媒體的檔案格式标準。

淘寶直播火爆的背後,阿裡做了什麼?

在國際視訊标準組織之外,大家也都知道另外一個有影響力的視訊标準制定聯盟,Alliance for OpenMedia (AOM)。AOM從谷歌的VP8和VP9開始,2018年出台第一代AOM标準AV1,同時最近AOM也開始籌劃開發下一代視訊标準AV2。從國内的标準組織來說,AVS經過了三代主要标準,現在在開發AVS3第二器。AVS3第一期和VVC的時間線非常吻合,也是在2017年底釋出技術征求書,2018年開始收集征求技術提案、征集的響應,也釋出了HPM參考平台。經過一段時間的疊代,2019年底定稿AVS3第一版。目前AVS正在繼續推進AVS3第二版的制定,目标是在明年年底定稿第二版,性能目标超過VVC。達摩院團隊也在積極參與AVS3第二版的制定,為AVS3第二版的制定做出重要的技術貢獻。

淘寶直播火爆的背後,阿裡做了什麼?

最後跟大家分享國際視訊标準的未來會是什麼樣。我們在做視訊标準時,不會隻是看現代,更不會隻看着過去,還要去看将來。從技術的趨勢來說,基于深度學習的視訊編碼是一個給大家很多希望的技術方向。我們知道,過去6代國際視訊标準都是基于傳統的混合編碼架構,其中有很多功能子產品,但是做到今天這個架構已經差不多到了性能天花闆。把DL技術引入編碼有兩條路線:一個是可以去和傳統的架構相結合,在各個功能子產品上增加DL的編碼工具,使性能變更好;另一種路線是做端到端的DL視訊編碼結構。這兩個方向,從技術趨勢來說都是非常值得去深究的。是以MPEG在今年4月份成立了DNNVC專題組,這個專題組想要做的事情是探索深度學習在視訊編碼上的應用,用以打破傳統架構的性能天花闆,尋找視訊編解碼的未來方向。

淘寶直播火爆的背後,阿裡做了什麼?

最後和大家介紹一下達摩院視訊技術團隊主要負責的三部分工作:視訊标準團隊主攻VVC、AVS3、AV2、DL編碼、VCM、DCM等硬核技術。在視訊硬體實作上,我們團隊開發了一款超高清的實時265編碼器,在業界同類産品中壓縮性能領先,同時還提供全硬體化的高效視訊前處理的能力,目前服務于優酷直播業務。在視訊軟體實作上,我們的團隊除了主導剛才所提到的阿裡266項目,另外我們也和淘寶團隊深度合作,為視訊會議提供基于H264和H265的軟硬體編碼優化方案,降低業務成本,提高使用者體驗。

繼續閱讀