陳厚倫投稿

量子位 | 公衆号 QbitAI

隻需一句話描述，就能在一大段視訊中定位到對應片段！

比如描述“一個人一邊下樓梯一邊喝水”，通過視訊畫面和腳步聲的比對，新方法一下子就能揪出對應起止時間戳：

就連“大笑”這種語義難了解型的，也能準确定位：

方法名為自适應雙分支促進網絡（ADPN），由清華大學研究團隊提出。

具體來說，ADPN是用來完成一個叫做視訊片段定位（Temporal Sentence Grounding，TSG）的視覺-語言跨模态任務，也就是根據查詢文本從視訊中定位到相關片段。

ADPN的特點在于能夠高效利用視訊中視覺和音頻模态的一緻性與互補性來增強視訊片段定位性能。

相較其他利用音頻的TSG工作PMI-LOC、UMT，ADPN方法從音頻模态擷取了更顯著地性能提升，多項測試拿下新SOTA。

目前該工作已經被ACM Multimedia 2023接收，且已完全開源。

一起來看看ADPN究竟是個啥～

一句話定位視訊片段

視訊片段定位（Temporal Sentence Grounding，TSG）是一項重要的視覺-語言跨模态任務。

它的目的是根據自然語言查詢，在一個未剪輯的視訊中找到與之語義比對的片段的起止時間戳，它要求方法具備較強的時序跨模态推理能力。

然而，大多數現有的TSG方法隻考慮了視訊中的視覺資訊，如RGB、光流（optical flows）、深度（depth）等，而忽略了視訊中天然伴随的音頻資訊。

音頻資訊往往包含豐富的語義，并且與視覺資訊存在一緻性和互補性，如下圖所示，這些性質會有助于TSG任務。

△圖1

(a)一緻性：視訊畫面和腳步聲一緻地比對了查詢中的“走下樓梯”的語義；(b)互補性：視訊畫面難以識别出特定行為來定位查詢中的“笑”的語義，但是笑聲的出現提供了強有力的互補定位線索。

是以研究人員深入研究了音頻增強的視訊片段定位任務（Audio-enhanced Temporal Sentence Grounding，ATSG），旨在更優地從視覺與音頻兩種模态中捕獲定位線索，然而音頻模态的引入也帶來了如下挑戰：

音頻和視覺模态的一緻性和互補性是與查詢文本相關聯的，是以捕獲視聽一緻性與互補性需要模組化文本-視覺-音頻三模态的互動。
音頻和視覺間存在顯著的模态差異，兩者的資訊密度和噪聲強度不同，這會影響視聽學習的性能。

為了解決上述挑戰，研究人員提出了一種新穎的ATSG方法“自适應雙分支促進網絡”（Adaptive Dual-branch Prompted Network，ADPN）。

通過一種雙分支的模型結構設計，該方法能夠自适應地模組化音頻和視覺之間的一緻性和互補性，并利用一種基于課程學習的去噪優化政策進一步消除音頻模态噪聲的幹擾，揭示了音頻信号對于視訊檢索的重要性。

ADPN的總體結構如下圖所示：

△圖2：自适應雙分支促進網絡（ADPN）總體示意圖

它主要包含三個設計：

1、雙分支網絡結構設計

考慮到音頻的噪聲更加明顯，且對于TSG任務而言，音頻通常存在更多備援資訊，是以音頻和視覺模态的學習過程需要賦予不同的重要性，是以本文涉及了一個雙分支的網絡結構，在利用音頻和視覺進行多模态學習的同時，對視覺資訊進行強化。

具體地，參見圖2(a)，ADPN同時訓練一個隻使用視覺資訊的分支（視覺分支）和一個同時使用視覺資訊和音頻資訊的分支（聯合分支）。

兩個分支擁有相似的結構，其中聯合分支增加了一個文本引導的線索挖掘單元（TGCM）模組化文本-視覺-音頻模态互動。訓練過程兩個分支同時更新參數，推理階段使用聯合分支的結果作為模型預測結果。

2、文本引導的線索挖掘單元（Text-Guided Clues Miner，TGCM）

考慮到音頻與視覺模态的一緻性與互補性是以給定的文本查詢作為條件的，是以研究人員設計了TGCM單元模組化文本-視覺-音頻三模态間的互動。

參考圖2(b)，TGCM分為”提取“和”傳播“兩個步驟。

首先以文本作為查詢條件，從視覺和音頻兩種模态中提取關聯的資訊并內建；然後再以視覺與音頻各自模态作為查詢條件，将內建的資訊通過注意力傳播到視覺與音頻各自的模态，最終再通過FFN進行特征融合。

3、課程學習優化政策

研究人員觀察到音頻中含有噪聲，這會影響多模态學習的效果，于是他們将噪聲的強度作為樣本難度的參考，引入課程學習（Curriculum Learning，CL）對優化過程進行去噪，參考圖2(c)。

他們根據兩個分支的預測輸出差異來評估樣本的難度，認為過于難的樣本大機率表示其音頻含有過多的噪聲而不适于TSG任務，于是根據樣本難度的評估分數對訓練過程的損失函數項進行重權重，旨在丢棄音頻的噪聲引起的不良梯度。

（其餘的模型結構與訓練細節請參考原文。）

多項測試新SOTA

研究人員在TSG任務的benchmark資料集Charades-STA和ActivityNet Captions上進行實驗評估，與baseline方法的比較如表1所示。

ADPN方法能夠取得SOTA性能；特别地，相較其他利用音頻的TSG工作PMI-LOC、UMT，ADPN方法從音頻模态擷取了更顯著地性能提升，說明了ADPN方法利用音頻模态促進TSG的優越性。

△表1：Charades-STA與ActivityNet Captions上實驗結果

研究人員進一步通過消融實驗展示了ADPN中不同的設計單元的有效性，如表2所示。

△表2：Charades-STA上消融實驗

研究人員選取了一些樣本的預測結果進行了可視化，并且繪制了TGCM中”提取“步驟中的”文本 to 視覺“（T→V）和”文本 to 音頻“（T→A）注意力權重分布，如圖3所示。

可以觀察到音頻模态的引入改善了預測結果。從“Person laughs at it”的案例中，可以看到T→A的注意力權重分布更接近Ground Truth，糾正了T→V的權重分布對模型預測的錯誤引導。

△圖3：案例展示

總的來說，本文研究人員提出了一種新穎的自适應雙分支促進網絡（ADPN）來解決音頻增強的視訊片段定位（ATSG）問題。

他們設計了一個雙分支的模型結構，聯合訓練視覺分支和視聽聯合分支，以解決音頻和視覺模态之間的資訊差異。

他們還提出了一種文本引導的線索挖掘單元（TGCM），用文本語義作為指導來模組化文本-音頻-視覺互動。

最後，研究人員設計了一種基于課程學習的優化政策來進一步消除音頻噪音，以自感覺的方式評估樣本難度作為噪音強度的度量，并自适應地調整優化過程。

他們首先在ATSG中深入研究了音頻的特性，更好地提升了音頻模态對性能的提升作用。

未來，他們希望為ATSG建構更合适的評估基準，以鼓勵在這一領域進行更深入的研究。

論文連結：https://dl.acm.org/doi/pdf/10.1145/3581783.3612504

倉庫連結：https://github.com/hlchen23/ADPN-MM

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

一句話精準視訊片段定位！清華新方法拿下SOTA｜已開源

一句話定位視訊片段

多項測試新SOTA

繼續閱讀

#曬出你手機裡的花花草草#夏臘梅花兒，大家見過嗎？看了一段視訊，部落客介紹說這種花兒，叫夏臘梅，屬于國家二級保護植物，花兒

不知不覺進頭條六年了。今天剛閑下來，一進頭條就看到頭條系統給我發了條資訊，說的是2018年6月12日，我在頭條釋出了第一

#面對智障的孩子，該怎麼辦#這孩子的父母就知道拍視訊炒作賺錢，網上都是諷刺和謾罵，好像網友們都不是針對這個殘疾孩子，而是

新秀無畏，4999拿下的好本本。如果剛好你想要一個本本，剪輯視訊，或者玩玩遊戲，他都能勝任。喜歡的可以多了解下紅米這款筆

爆瓜了，這幾天都說王思聰疑似有個幾個月大的私生女，不知道是不是真是王思聰的，黃一鳴敢在視訊曝光實言是王思聰的，卻又沒看到

實測完快手的AI視訊「可靈」後，我覺得這才是第一個中國版Sora

王思聰究竟是基因太好還是家庭背景好，那麼多女網紅為了嫁入豪門甘願為王思聰生娃，更直言王思聰不僅人帥有錢基因也好，網友的評

關于銀河L7日常駕駛使用的分享，這是今天一個新入手的車友，看了我的視訊，按照我說的模式設定，跑出來的資料，油耗電耗表現不

《曉朝夕》定檔6月15日，騰訊視訊播出～《曉朝夕》是由國浩執導，哈尼克孜，焉栩嘉，張嘉元，黃喬，馬思涵，林君怡，郁子陽，

一款內建了視訊下載下傳、錄制、轉換、壓縮等多種功能的視訊處理軟體

#頭條創作挑戰賽#昨天還說前幾天涼快，今天感覺有點燥熱，出門有一股暑氣。爸爸上次說想吃竹葉菜和冬瓜，今天一早買回來，老公

說實話，新版《射雕英雄傳》本來還有點期待，不過看到預告視訊，心都涼了一截！黃蓉乞丐裝的時候，斜眼歪嘴，流裡流氣的，原來以

#抖音中視訊計劃#如何加入中視訊計劃#今日讨論話題#幹貨分享#中視訊開通條件

人頭頂球為啥頂不過狗呢？看視訊它的頭頂球20秒，球不落下不說還屁颠屁颠往前竄，要是在球場上有1.9米的隊員頂球5秒不落，

鄧博發王炸視訊了，哥哥和妹妹的視訊太好看了，兄妹倆長得好像啊！剛認親的時候沒覺得特别像，現在越看越像了，看見兄妹倆的視訊

如何給視訊号小店的客戶小額打款？小額打款的作用