天天看點

AI編解碼優勢顯著,未來将與傳統方法并行發展 | 專訪高通AI研究方向負責人侯紀磊

與傳統編解碼相比,AI 賦能編解碼能帶來哪些方面的增益?高通又在這方面做了哪些技術創新和應用?近日,機器之心在與高通工程技術副總裁、人工智能研究方向負責人侯紀磊博士的訪談中,得到了這些問題的答案。

随着通信和網際網路技術的進步,特别是智能手機的普及以及 4G、5G 移動通信技術的成熟與發展,語音視訊聊天、視訊遊戲等多樣化的休閑娛樂方式層出不窮,普通使用者對語音與視訊的消費需求也在不斷增長。

2020 年《思科可視化網絡指數:預測和趨勢(2017-2022 年)》報告和 WhatsApp 相關資料表明,人們創造和消費的語音與視訊内容體量巨大。其中,網際網路平均每秒傳輸 100 萬分鐘時長的視訊、線上視訊占所有消費者使用的網際網路流量的 82%、Facebook 平台日均視訊觀看量為 80 億、平均每日産生 150 億分鐘時長的 WhatsApp 通話…… 如何更高效地處理語音和視訊内容(包括壓縮和編解碼)成為近年來的重要研究課題之一。

AI編解碼優勢顯著,未來将與傳統方法并行發展 | 專訪高通AI研究方向負責人侯紀磊

就視訊編解碼而言,它在可用的計算資源内,追求盡可能高的視訊重建品質和盡可能高的壓縮比,以達到帶寬和存儲容量的要求。很長時間以來,基于 CPU 的軟體編解碼技術(也稱軟解碼)一直主導着市場,雖然易于使用,但會占用 CPU 資源,提升功耗,編解碼效率不高,容易出現卡頓、花屏等異常,影響其他應用的正常運作。同時,利用 GPU 或者專用處理器來對視訊進行編解碼(也稱硬解碼)成為另一種選擇,不僅可以實作良好的編碼性能,而且使用顯示卡編碼不會占用太多系統資源,也就不會影響應用的使用性能。

不過,日益增長的語音和視訊消費需求對未來的語音和視訊編解碼器提出了更高的要求。在這種趨勢下,基于 AI 的編解碼開始「入場」,并陸續出現了以神經網絡、機器學習為主導的編解碼技術,展現出了媲美傳統編解碼器的壓縮性能。

那麼,基于 AI 的端到端編解碼技術何時開始在學界和業界興起?與 H.265/H.266 等傳統編解碼技術相比,AI 在哪些方面帶來了優勢?AI 語音和視訊編解碼各自面臨的主要挑戰是什麼?AI 編解碼的前景又如何呢?

機器之心日前專訪了高通工程技術副總裁、人工智能研究方向負責人侯紀磊博士,他不僅對以上問題進行了詳細解讀,還介紹了高通在 AI 編解碼領域的最新技術進展以及相關應用。

AI編解碼優勢顯著,未來将與傳統方法并行發展 | 專訪高通AI研究方向負責人侯紀磊

侯紀磊博士畢業于美國加州大學聖疊戈分校,現為高通公司工程技術副總裁,并擔任人工智能研究方向負責人。他于 2003 年加入高通,在技術創新、标準化以及 3G /4G/5G 無線通信标準領域的産品商用方面做出了廣泛深入的貢獻。

侯紀磊博士主要負責建構人工智能 / 機器學習的研究基礎架構,推動面向下一代硬體和軟體平台的技術創新,并上司惠及垂直技術發展的前瞻性研究工作。此前,侯紀磊博士曾在 2011 至 2017 年間上司高通公司中國研發團隊。任職期間,他大幅拓展了高通公司在中國的研發工作,中國研發團隊在他的上司下成為了一股強大的本地研究力量。他還啟動了 5G 研究和地面機器人項目,惠及高通公司在大中華區的業務。

 此外,侯紀磊博士還是 IEEE 進階會員,曾多次被選入和參與由美國同 / 或中國國家工程院組織的工程前沿(FOE)專題研讨會。

AI 編解碼未來将長期與傳統編解碼并行發展

針對 AI 編解碼技術的興起,侯紀磊博士表示,「隻針對靜止的圖像而言,最早相關論文是在 2015 年底到 2016 年初釋出的;最早專門介紹視訊的 AI 編解碼器技術的論文出現在 2018 年左右。從 2018 年至今,短短 3 年時間,AI 編解碼技術已經走過了傳統編解碼技術過去 30 年甚至更長時間走過的過程。」

短短 3 年的時間也驗證了 AI 在編解碼領域的強大能力。但是,效果好不好,有比較才更直覺。在性能上,基于 AI 的端到端壓縮技術已經初步具備了與傳統的 H.265 和 H.266「相比較」的能力。侯博士進一步解讀了這種能力在哪些方面得到了充分的展現甚至具有的優勢。

一方面,是端到端編解碼的優勢,侯博士以主流報紙的手機 APP 為例進行說明。使用者下載下傳應用時,應用内部已包括基于 AI 的編解碼核——專門針對報紙提供的數字化視訊内容進行優化的核。這個核在理論上不需要直接通過标準化的過程,而是該報紙跟高通或者相關廠商直接合作進行優化就可以完成。在 APP 安裝之後,編解碼器可以不斷地進行更新,并且不需要依賴專用 ASIC, 隻需要一個通用 AI 加速器就能支援,是以内容的優化以及編解碼器的更新和部署過程都呈現非常靈活的模式。

這種靈活的模式将來會使得端到端的 AI 編解碼器具備強大的吸引力。

另一方面,基于 AI 的端到端編碼器,易于更新和部署,能夠針對特定的資料分布進行優化。這些實際上都是 AI 端到端編解碼器非常具有優勢的地方,是以侯博士認為,「AI 端到端編解碼一定是有自己的生命力的。」

關于 AI 在視訊壓縮領域的輔助作用,侯博士也表達了自己的觀點——AI 作為輔助方式并非沒有意義,實際在标準方面,AI 具備「幫助傳統壓縮算法的巨大潛力」。

AI編解碼優勢顯著,未來将與傳統方法并行發展 | 專訪高通AI研究方向負責人侯紀磊

基于 AI 的壓縮技術具有 8 個方面的顯著優勢。

最後,侯博士認為,「從研發和探讨的模式來看,傳統和基于 AI 的編解碼技術将在未來相當長的一段時間裡呈現出并行發展的态勢。」

高通在 AI 視訊編解碼領域做了哪些努力?

一直以來,高通在 AI 賦能視訊編解碼方面做了很多嘗試和努力。

在全新的基于機器學習的視訊編解碼器研究中,一般分為 I 幀(即幀内編碼幀)、P 幀(即幀間預測編碼幀)和 B 幀(即雙向預測編碼幀)。高通首先在 B 幀預測編解碼方面提出了一個被稱為「B-EPIC」的解決方案,該方案結合了雙向運動補償和插幀這兩種 B 幀編解碼模式的優勢。

具體來講,高通先做一遍插幀,把兩個參照幀進行增內插補點操作,并在這個插值的基礎上複用前面 P 幀的編解碼器。值得注意的,這裡不隻是複用 P 幀編解碼器的架構,還複用了它的權重,相當于在插幀基礎上依然做了運動補償。此外,對于運動向量(motion vector)來說,這種做法使其比特流得到了更好的優化,是以在最終的率失真性能上得到更好地提升。

總之,無論是從訓練層面的有效性還是從傳輸過程中比特數的節約上,高通的 B-EPIC 都是一種非常好的方法。

AI編解碼優勢顯著,未來将與傳統方法并行發展 | 專訪高通AI研究方向負責人侯紀磊

在與傳統 H.265 采用的 FFmpeg、谷歌研究院感覺團隊 CVPR 2020 論文中的端到端 SSF(Scale-Space Flow)視訊壓縮方案相比,高通 B-EPIC 表現出了顯著的效果提升。尤其是相較于谷歌 SSF,B-EPIC 将 BD 率降低了 29%。

AI編解碼優勢顯著,未來将與傳統方法并行發展 | 專訪高通AI研究方向負責人侯紀磊

其次,高通還提出「通過執行個體自适應視訊壓縮過拟合」。這樣做的編碼方式要平衡好兩點,一方面,由于這樣的過拟合自适應,編碼的比特流有相當大的縮減;另一方面,我們必須對模型的增量進行定期更新,由此構成一個損失。最終要把這兩個效果疊加在一起,觀察最終的總體比特量以及與基準比特流比特量之間的比較。如下圖右所示,如果左側總比特流較右側小很多,則意味着基于單個視訊執行個體過拟合單個模型的做法是有成效的。

AI編解碼優勢顯著,未來将與傳統方法并行發展 | 專訪高通AI研究方向負責人侯紀磊

同樣地,相較于 H.265 采用的 FFmpeg、谷歌 SSF,高通的方案分别将 BD 率降低了 29% 和 24%。并且,這種執行個體過拟合方案适合部署于移動端,在将解碼複雜度降低 72% 的同時,仍能保持同等 SOTA 結果。

AI編解碼優勢顯著,未來将與傳統方法并行發展 | 專訪高通AI研究方向負責人侯紀磊

最後,高通在其内部研發中比較好的展現是基于語義感覺的圖像或視訊壓縮。這種語義感覺在于基準的編碼方式和比特的分布,如果在做壓縮的時候基于語義感覺的結果,則對比特的分類可以實作更加有效和智能的配置設定,也能在細節描述上展現更好的效果。下圖可以清楚地看到基準比特配置設定與語義感覺比特配置設定的差異:

AI編解碼優勢顯著,未來将與傳統方法并行發展 | 專訪高通AI研究方向負責人侯紀磊

圖中谷歌的論文(SSF)采用的是非基于語義感覺的、比較均勻的壓縮方式——即超先驗 AE。從下圖右的比特率相對 PSNR 的對比可以看到,無論是前景還是背景,這種壓縮方法的 PSNR(峰值信噪比)基本上比較接近。但是,在為關注區域 ROI 配置設定更多比特之後,不僅非關注區域的 PSNR 降低相對有限,而且前端關注區域的 PSNR 有了非常大的提升,進而使得圖像或視訊的主觀效果出現很大的提升。

高通表示,這種基于語義感覺的壓縮方法還将進一步擴充至視訊壓縮領域。

AI編解碼優勢顯著,未來将與傳統方法并行發展 | 專訪高通AI研究方向負責人侯紀磊

除了 AI 編解碼技術上的創新之外,高通在 6 月份已經展示了針對實時終端側的神經視訊解碼,實作了業界首款在商用智能手機端實時運作、基于軟硬體結合的神經幀内視訊解碼器,并在接近 720p HD 分辨率的視訊上實作了 30 fps 以上的實時解碼。

神經幀内視訊解碼展示。

侯博士表示,「預計今年年底在高通骁龍技術峰會或者同期 NeurIPS 會議上将會展示幀間解碼器技術。」

相較語音,視訊編解碼更複雜,挑戰也更多

首先是語音編解碼器,它基本上用在實時通信,這就決定了編解碼器需要同時操作,即編碼器和解碼器要同時具備實時性。從實作的角度來看,語音編解碼器通常放在相對低成本的處理器上實作,對于複雜度的要求尤為苛刻。是以侯博士認為,語音編解碼器的挑戰更多地來自于實作的複雜度。

相比之外,視訊編解碼器面臨的挑戰更多,主要有以下兩個方面:

其一,從宏觀角度來看,基于圖像、視訊和 3D 模型的 AI 代表了計算機視覺領域三個主要的方向,其中視訊 AI 研發處于早期階段。并且,視訊壓縮在整個視訊 AI 研發中又是相對早期的,視訊編解碼正是屬于這個範疇。是以基于 AI 的視訊編解碼,在技術上需要進一步打磨,還有很長的路要走。

其二,視訊編解碼是一種更複雜的編解碼系統,包括要做幀内和幀間處理。相較于語音,視訊編解碼還需要進行更多熵編碼。是以整體來看,無論是從設計、優化還是最終實作的角度,視訊編解碼都是一個更加龐大的系統,具有更高的複雜度。

此外,從近期來看,基于 AI 的編解碼技術需要解決的比較大的挑戰有哪些呢?侯博士從三個方面對這個問題進行了詳細的解答。

首先,從最終的商用落地的訴求來講,如果基于 AI 的編解碼器,能夠放在通用的 AI 加速器,而不是專用處理器上面,那麼如何控制複雜度、利用并行度以及很好地實作低位定點,這些都是非常大的挑戰。舉例而言,高通今天可以實作 720P 的神經幀内視訊解碼,以後更新為支援 1K、2K 或 4K 的話,複雜度就會大大增加。

其次,對于圖像而言,通過 GAN 的方式已經能夠很好地生成比特流中沒有的視覺細節,但針對視訊流卻沒有一個特别好的方法。在生成視訊流細節的時候需要考慮:幀間或時域上能不能保持連續性和穩定性?這是一個比較難的課題。此外,在這個角度上,如何在一個統一客觀的感覺品質測度上,進行基于 GAN 的模型訓練和生成,客觀來講這是一個未知挑戰,同時也是努力的方向;

最後,尤其針對視訊而言,無論 AI 編解碼器有怎樣的優勢,一定會涉及與 H.265/H.266 比較的問題。但如何比較呢,尤其是在标準上怎麼比?最終,我們還是要在率失真方面實作大幅度的進步,這樣最終可以使基于 AI 的編解碼器實作廣泛的應用,這是一個基礎的、必要的條件。

繼續閱讀