天天看點

從技術全景到場景實戰,透析「窄帶高清」的演進突破

随着5G時代的到來,網際網路短視訊、電影電視劇、電商直播、遊戲直播、視訊會議等音視訊業務呈井噴式發展。

作為通用雲端轉碼平台,阿裡雲視訊雲的窄帶高清需要處理海量、不同品質的視訊。對于中高品質的視訊,現有的窄帶高清1.0就能提供滿意的轉碼效果,并帶來達30%的帶寬成本降低;而對于有明顯壓縮失真和成像噪聲的低品質視訊,需要使用性能更好的窄帶高清2.0進行去壓縮失真、去噪和增強處理進而得到更好的觀看體驗。

在2022稀土開發者大會上,阿裡雲智能視訊雲技術專家周明才以《阿裡雲窄帶高清的演進突破與場景實戰》為主題,深度分享阿裡雲視訊雲在窄帶高清上的研發思考與實踐。

01 窄帶高清的源起

談及窄帶高清之前,先來聊聊普通的雲端轉碼流程。轉碼本質上是一個先解碼再編碼的過程。從下圖可以看到,普通雲端轉碼是在使用者端先形成一個原始視訊,經過編碼之後以視訊流的形式傳到服務端,在服務端解碼之後做轉碼,然後再編碼通過CDN(内容分發網絡)分發出去,此時普通轉碼主要的功能就是做視訊格式的統一,并在一定程度上降低碼率。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

窄帶高清是什麼?它與普通轉碼的主要差別是什麼?通過窄帶高清的字面意思可以了解,“窄帶”是指讓視訊經過窄帶高清轉碼之後,對帶寬的需求變得更小。同時,“高清”是指經過轉碼後的畫質仍然能夠保持高清、豐富的視覺體驗。

上圖的下半部分也就是窄帶高清的流程,與普通轉碼流程不同點在于,在雲端做了解碼之後,窄帶高清還會對視訊品質做增強處理,以及利用編碼資訊來輔助提升視訊品質。經過品質提升後,再用針對主觀品質做過優化的編碼器進行編碼,最後進行分發。

總結來說,窄帶高清本質上解決的是品質提升和壓縮的問題,其主要目标是追求品質、碼率和成本的最優均衡。

阿裡雲早在2015年就已經提出了窄帶高清這一概念。在2016年正式推出窄帶高清這一技術品牌并且進行了産品化。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

今年,阿裡雲推出了窄帶高清2.0極緻修複生成版本。相較于先前版本,最大特點是能生成細節紋理做到極緻修複。

窄帶高清全景圖

窄帶高清在做自适應參數決策時主要考慮三個次元:業務場景、視訊熱度、視訊内容。

由于業務場景的不同,比如電商直播、遊戲直播、賽事直播,所需要的視訊增強和編碼參數不一樣;對于一些高熱内容,如:在手淘場景中可以用窄帶高清2.0啟動二次轉碼來實作品質的進一步提升和碼率的節省;在視訊内容次元,會針對目前的視訊做一些High-level和 Low-level的分析,High-level包含語義的分析,特别是ROI的檢測,Low-level包括視訊壓縮程度、模糊程度、噪聲程度的視訊品質分析。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

根據以上這些次元的分析,可以得到自适應參數的決策結果。根據此結果,窄帶高清再去做相應的視訊修複和視訊增強。具體來說,視訊修複包括強壓縮失真、降噪等,視訊增強包含細節增強、色彩增強、對比度增強等。

02 視訊内容分析

ROI

ROI的主要目的是在碼率受限或碼率一緻的情況下,将碼率盡可能配置設定到人眼更關注的區域,比如在電影電視劇中,觀衆會更多關注主角的臉。

基于ROI的處理和壓縮,有以下兩個難點:一是如何得到低成本的ROI算法,二是如何基于ROI進行碼控決策,例如:保證ROI區域主觀品質提升的同時,非ROI區域的主觀品質不會明顯下降;同時做到時域連續、不閃爍。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

在低成本ROI計算方面,阿裡雲自研了自适應決策的人臉檢測跟蹤算法,這是一款低成本、高精度的算法。在極大部分時間隻需要做計算量極小的人臉跟蹤,隻有少部分時間做人臉檢測,進而在保證高精度的情況下,實作超低成本和快速ROI擷取。

從下圖表格裡面可以看到,阿裡雲自研算法相比開源人臉檢測算法,精度和召回基本上沒有損失,同時複雜度和計算耗時有明顯數量級的下降。

在有了ROI算法之後,需要對場景、視訊品質的自适應碼率配置設定進行決策。針對此難題,主要考慮與編碼器結合,在主觀和客觀之間取得均衡,同時保證時域的一緻。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

JND

傳統視訊壓縮方法主要基于資訊理論,從預測結構的角度減小時域備援、空間備援、統計備援,但這對視覺備援挖掘是遠遠不夠的。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

在JND算法裡,主要采用了兩個算法,一個是空域JND算法,一個是時域JND算法,拿到這些JND算法後,我們再基于MOS的自适應碼控算法,對QP做自适應的配置設定,最終實作在通用場景及主觀情況下,碼率可以節省30%以上。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

03 視訊修複增強

細節增強

講到視訊修複增強,提及最多的就是細節增強部分,效果确實會比較明顯。

通常的細節增強基于UnSharp Mask的架構。阿裡雲視訊雲自研的細節增強算法,有以下三個特點:第一是有更精細的圖像紋理細節提取方式,能提取不同尺寸,不同特征的圖像紋理結構,增強效果更優;第二,算法可以通過對圖像内容紋理結構分析,根據區域紋理複雜度實作局部區域自适應增強;第三個特點是算法可以和與編碼結合,根據編碼器的編碼資訊回報來自适應調整增強政策。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

色彩增強

通常采集的視訊素材,因為采集的裝置或者光線亮度的原因,導緻素材顔色可能看起來會比較暗淡。特别是在短視訊場景,這類視訊會失去視覺吸引力,是以需要色彩增強。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

色彩增強存在哪些難點問題?具體如何做色彩增強?

像Ffmpeg裡面有EQ filter,EQ filter會用UV通道去做色彩增強。而在我們的自研算法裡,實際上是在RGB顔色空間去做增強,即會根據目前顔色點的飽和度,去做一些局部的自适應。同時,也會根據目前畫面整體的情況,做一個整體的自适應。

在膚色保護這塊,因為傳統的色彩增強完之後,人臉區域會泛紅,主觀視覺上不自然。為了解決這一問題,我們采用了膚色保護的方法,對膚色區域做一個額外的保護。

這是一個色彩增強前跟增強後的效果對比。可以看到增強後的綠色的蔬菜、肉,整個的顔色看着會更飽滿,對于美食類視訊來講更能夠激發起觀衆的食欲。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

對比度增強

在對比度增強中,使用了經典的CLAHE算法,其思路是對一個視訊幀做分塊,通常分成8x8個分塊,在每一塊統計直方圖。然後統計直方圖的時候,對直方圖做一個Clip,就是所謂的對比度受限的直方圖均衡,這主要是克服過度放大噪聲的問題。基于CLAHE的視訊對比度增強其實有一個難點,就是時域閃爍問題。這在學術界也是一個較難的問題,到目前為止,還沒有得到非常徹底的解決。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

降噪

降噪在ffmpeg裡面有很多算法,比如像BM3D、BM4D、 NLM,這些算法的去噪效果好,但是複雜度非常高,會導緻速度慢成本高,可能還需要配合噪聲估計子產品來一起使用。

另外還有一些相對均衡的算法,速度比較快,但是效果不強。如果想要提升它的去噪強度,通常會引入一些僞影或細節丢失的問題。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

基于這些調研,我們自研的降噪算法采用基于多分辨率分解在上面做濾波架構。首先是對輸入圖像會做小波分解,得到高頻跟低頻資訊。對于高頻做軟門檻值處理。對于低頻采用雙邊濾波降噪。經過這種濾波或者軟門檻值之後,再重新合成回去,就可以達到去噪目的。算法的核心難點在于如何去做加速,使得成本和運算速度能夠滿足轉碼要求,尤其是實時轉碼場景,對速度要求是非常高的。

加速

算法團隊對于小波變換加速做了包括整形化很多的嘗試,總是存在一些累積誤差。是以我們最後采用了浮點型加速方式,用avx2浮點加速能夠達到大概三倍的提升。

另外是雙邊濾波這部分的加速,傳統的雙邊濾波基于鄰域像素的操作。這種基于鄰域的操作其實非常慢的。是以,我們采用了RBF這個快速算法,把二維的濾波分解成一維的,同時采用遞歸的方式去從左到右,從右到左,從上到下,從下到上,這樣的一維操作,就可以實作類似于原始雙邊濾波效果。通過采用RBF這個快速算法,我們可以獲得大概13倍的加速。此外我們還做了這種AVX2彙編的優化,這塊能夠額外加速十倍左右。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

上圖是SDR+的整體效果圖,在經過SDR+的處理之後,畫面整體的對比度、亮度、清晰度會有很大的提升,以上這些是針對視訊增強做的一些工作。

CDEF去振鈴

首先是CDEF去振鈴,CDEF本身是源自于AV 1的一個技術,在CDEF處理之前,強邊緣附近會有很多的毛刺和振鈴。經過CDEF處理之後,畫面中的噪聲得到很大的剔除。

CDEF算法的核心步驟,其實是一個平滑濾波的過程,隻不過它的平滑濾波的權重、偏差都做了一些特殊的處理。特别是它的濾波權重,跟目前像素點所在的8x8像素區域的主要方向是有關系,也就是圖中左下角這裡展示的,它會去做一個最優方向的一個搜尋。搜尋完了之後,根據主方向來确定它的這個濾波器抽頭的方向和權重。此外,CDEF有兩部分的權重,一個是主方向的WP,另一個是輔助方向WS。然後對于鄰域點和目前點的灰階偏差做截斷,這可以避免過平滑。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

去壓縮失真

除了用CDEF基于傳統的圖像處理算法做去振鈴之外,還做了基于深度學習的去壓縮失真的算法。這個算法是基于多幀的方案,更利于幀間連續性,不易出現幀間閃爍。“窄帶高清”算法分成兩大塊:一個是品質檢測子產品,一個是去壓縮子產品。品質檢測子產品可以識别不同品質視訊源的壓縮程度,然後輸出QP MAP作為壓縮強度衡量名額。另一個是去壓縮子產品,輸入多幀視訊和對應幀的QP MAP,利用QP MAP進行自适應去壓縮。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

極緻修複生成

極緻修複生成主要是針對畫質比較差的場景,去除較強的壓縮失真的同時,生成一些因壓縮而丢失的細節。在極緻修複生成研發中,有以下幾個要點:一是建構訓練資料(在訓練資料建構時,參照了Real-ESRGAN的二階退化思路);二是對比較敏感的人臉區域,保證人臉生成穩定性;三是做模型壓縮時,使得模型計算量低的同時保持良好的效果;四是模型部署。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

極緻修複的場景實戰

在六月份NBA決賽直播時,百視TV希望通過使用我們的窄帶高清2.0修複生成技術,來提升他們賽事直播的品質。如中間這個截圖所示,截圖的上半部分是主播直接推過來的視訊效果,下半部分是經過極緻修複生成之後的效果。

從技術全景到場景實戰,透析「窄帶高清」的演進突破

可以看到修複之後,Youtube這幾個字母邊緣會更清晰、幹淨,不再毛躁。其他籃球場景相關的,比如球員身後的數字及球員的身體輪廓,也會變得特别清晰。另外也有些生成效果,比如地闆上有生成一些紋理,使整體的賽事觀感大大提升。

除了自研的算法,阿裡雲也有一些高校合作項目,字幕修複就是其中一個合作項目的成果。可以看圖中右下角實際修複字幕例子。該字幕取自一個老片MV,上面一行是原始MV裡的字幕,可以看到“話”字的言字旁幾條橫筆畫會有一些粘連,此外文字邊緣還有很多的噪聲。下面一行是經過字幕修複之後的效果,能夠看到會變得很幹淨、清晰。

繼續閱讀