天天看點

基于深度學習的環路濾波的消融實驗

本文來自提案JVET-Z0106,在上一篇文章《​​基于深度學習的環路濾波和殘差縮放​​》中介紹了JVET-Y0143提案使用深度學習模型來做環路濾波帶來了性能提升,但是整個模型還是一個“黑盒”,無法确定究竟是模型的哪個部分起了關鍵作用。本文通過消融實驗對模型的輸入和結構進行研究,進而确定不同子產品對于最終的效果的影響。

簡介

提案設計了多個消融實驗,每次控制單一變量,進而确定該變量對模型的影響。研究針對幀内亮度模型(intra luma model),幀内色度模型和幀間模型保持不變。JVET-Y0143提案的幀内亮度模型的輸入包括重建像素(rec)、預測像素(pred)、劃分資訊(part)、邊界強度(BS)和QP。模型有8個殘差單元,每個都使用了attention。針對這些輸入和模型結構設計了以下消融實驗:

  • 增加訓練時間:訓練時間由60小時增至146小時。
  • 移除輸入:
  1. 移除劃分資訊part
  2. 移除BS資訊
  3. 同時移除劃分資訊part和BS資訊
  4. 移除預測資訊pred
  • 減少網絡層數(殘差單元由8個變為4個)
  • 增加網絡層數(殘差單元由8個變為16個)
  • 去掉殘差單元的attention(最後一個殘差單元除外)
  • 去掉所有殘差單元的attention

整個消融實驗的結果如表1,使用all intra配置,複雜度使用kMACs/sample度量,整體複雜度包括了幀内色度模型和幀間模型盡管它們沒改動。

基于深度學習的環路濾波的消融實驗

消融實驗

首先對JVET-Y0143提案中的模型進行了重新訓練并取得了相似的BD-Rate,網絡結構和JVET-Y0143提案中的一樣,如圖Fig.1-3,Fig.1将輸入進行整合産生輸出y。y再傳入到8個殘差單元,Fig.2是殘差單元。最後一個殘差的單元的輸出傳遞到網絡的最後一部分Fig.3。

基于深度學習的環路濾波的消融實驗

重新訓練取得了和JVET-Y0143提案類似的效果(BD-Rate -7.39%),經過155輪次(60小時)訓練BD-Rate為-7.38%,如表1的第1、2行。

增加訓練時間

第一個消融實驗是增加訓練時間看對模型效果的影響,訓練由155輪次(60小時)增加到378輪次(146小時),BD-Rate由-7.38%變為-7.57%,提升了0.19%,這表明增加訓練時間能提升模型效果。本文使用此模型作為基準,後續的實驗都訓練378輪次。表1第3行。

移除輸入

這部分實驗通過移除不同輸入驗證它們對模型的影響。

移除劃分資訊

将輸入中的劃分資訊移除,隻保留rec、pred、BS和QP,經過378輪次的訓練BD-Rate為-7.57%,表1第4行。移除前的BD-Rate也為-7.57%(表1第3行),這表明去掉劃分資訊對幀内亮度模型的效果沒有影響。而且移除劃分資訊後複雜度也由429kMACs/sample降為418kMACs/sample。

移除BS資訊

将輸入中的BS資訊移除,隻保留rec、pred、part和QP,經過378輪次的訓練BD-Rate為-7.56%,表1第5行。移除前的BD-Rate為-7.57%(表1第3行),這表明去掉BS資訊對幀内亮度模型的效果幾乎沒有影響。而且移除BS資訊後複雜度也由429kMACs/sample降為418kMACs/sample。

移除劃分資訊和BS資訊

将輸入中的劃分資訊和BS資訊都移除,隻保留rec、pred和QP,經過378輪次的訓練BD-Rate為-7.42%,表1第6行。移除前的BD-Rate為-7.57%(表1第3行),這表明同時去掉劃分資訊和BS資訊對幀内亮度模型有影響,可以判斷劃分資訊和BS資訊在模型中可能起到相似的作用,模型中至少保留兩者之一。移除劃分資訊和BS資訊後複雜度由429kMACs/sample降為407kMACs/sample。

移除預測資訊

将輸入中的預測資訊移除,隻保留rec、part、BS和QP,經過378輪次的訓練BD-Rate為-7.35%,表1第7行。移除前的BD-Rate為-7.57%(表1第3行),這表明去掉預測資訊對幀内亮度模型的效果影響很大。

減少網絡層數

本實驗将殘差單元數量由8個減少為4個,經過378輪次的訓練BD-Rate為-6.76%,表1第8行。移除前的BD-Rate為-7.57%(表1第3行),這表明減少網絡層數對幀内亮度模型的效果影響很大。由于殘差單元數量的減半,複雜度由429kMACs/sample降為261kMACs/sample。

增加網絡層數

本實驗将殘差單元數量由8個增加為16個,經過378輪次的訓練BD-Rate為-8.28%,表1第9行,由于網絡層數加深訓練時間也由146小時增加為235小時。移除前的BD-Rate為-7.57%(表1第3行),這表明增加網絡層數可以提升幀内亮度模型的效果。由于殘差單元數量的加倍,複雜度由429kMACs/sample降為765kMACs/sample。

去掉殘差單元的attention(最後一個殘差單元除外)

去掉前7個殘差單元中的attention計算,不帶attention的殘差單元結構如下圖,第8個殘差單元保持不變,經過378輪次的訓練BD-Rate為-7.56%,表1第10行,對幀内亮度模型的效果幾乎沒有影響。由于減少了attention的計算,,複雜度由429kMACs/sample降為426kMACs/sample。

基于深度學習的環路濾波的消融實驗

去掉所有殘差單元的attention

去掉所有殘差單元中的attention計算,經過378輪次的訓練BD-Rate為-7.58%,這表明attention對模型效果沒有影響。由于減少了attention的計算,,複雜度由429kMACs/sample降為426kMACs/sample。

實驗結果

下面是各實驗的具體結果,由于研究的是幀内亮度模型是以大部分實驗都是用all intra配置,其中移除劃分資訊的實驗還有RA和LDB配置。

基于深度學習的環路濾波的消融實驗
基于深度學習的環路濾波的消融實驗

繼續閱讀