張化鑫投稿

量子位 | 公衆号 QbitAI

如何從一段視訊中找出感興趣的片段？時序行為檢測（Temporal Action Localization，TAL）是一種常用方法。

利用視訊内容進行模組化之後，就可以在整段視訊當中自由搜尋了。

而華中科技大學與密歇根大學的聯合團隊最近又為這項技術帶來了新的進展——

過去TAL中的模組化是片段甚至執行個體級的，而現在隻要視訊裡的一幀就能實作，效果媲美全監督。

來自華中科技大學的團隊提出了一種名為HR-Pro的新架構，用于點标注監督的時序行為檢測。

通過多層級的reliability propagation，HR-Pro可以網絡學習到更具辨識力的片段級特征和更可靠的執行個體級邊界。

HR-Pro包括兩個可靠性感覺的階段，能夠有效地從片段級别和執行個體級别的點标注中傳播高置信度的線索，進而使網絡能夠學習到更具區分性的片段表示和更可靠的提議。

在多個基準資料集上進行的大量實驗證明，HR-Pro明顯優于現有方法，并取得了最先進的結果，證明了其方法的有效性和點标注的潛力。

表現比肩全監督方式

下圖展示了HR-Pro與LACP在THUMOS14測試視訊上進行時序行為檢測表現比較。

HR-Pro展現出更了準确的動作執行個體檢測，具體來說：

對于“高爾夫揮杆”行為，HR-Pro有效地區分了行為和背景片段，減輕了LACP難以處理的False Positive預測；
對于鐵餅投擲行為，HR-Pro檢測到比LACP更完整的片段，後者在非區分性動作片段上具有較低的激活值。

資料集上的測試結果，也印證了這一直覺感受。

将THUMOS14資料集上的檢測結果可視化後可以觀察到，在執行個體級别完整性學習之後，高品質預測和低品質預測之間的差異顯著增大。

（左側是執行個體級别完整性學習之前的結果，右側是學習之後的結果。橫軸和縱軸分别表示時間和可靠性分數。）

整體來看，在常用4個資料集中，HR-Pro的性能均大幅超越最先進的點監督方法，在THUMOS14資料集上的平均mAP達到60.3%，相較之前的SoTA方法(53.7%)的提升為6.5%，并且能與一些全監督方法達到相當的效果。

在THUMOS14測試集上與下表中的先前最先進方法相比，對于IoU門檻值在0.1到0.7之間，HR-Pro的平均mAP為60.3%，比先前最先進方法CRRC-Net高6.5%。

并且HR-Pro能夠與具有競争力的全監督方法達到相當的表現，例如AFSD（對于IoU門檻值在0.3到0.7之間，平均mAP為51.1% vs. 52.0%）。

△HR-Pro與前SOTA方法在THUMOS14資料集上的對比

在各種基準資料集上的通用性和優越性方面，HR-Pro也明顯優于現有方法，在GTEA、BEOID和ActivityNet 1.3上分别取得了3.8%、7.6%和2.0%的提高。

△HR-Pro與前SOTA方法在GTEA等資料集上的對比

那麼，HR-Pro具體是如何實作的呢？

學習分兩階段進行

研究團隊提出了多層級可靠傳播方法，在片段級引入可靠片段記憶子產品并利用交叉注意力的方法向其他片段傳播，在執行個體級提出基于點監督的提議生成來關聯片段和執行個體，用于産生不同可靠度的proposals，進一步在執行個體級優化proposals的置信度和邊界。

HR-Pro的模型結構如下圖所示：時序行為檢測被劃分為兩階段的學習過程，即片段級别的判别性學習和執行個體級别的完整性學習。

階段一：片段級判别學習

研究團隊引入可靠性感覺的片段級判别學習，提出為每個類别存儲可靠原型，并通過視訊内和視訊間的方式将這些原型中的高置信度線索傳播到其他片段。

片段級可靠原型建構

為了建構片段級别的可靠原型，團隊建立了一個線上更新的原型memory，用于存儲各類行為的可靠原型mc（其中 c = 1, 2, …, C），以便能夠利用整個資料集的特征資訊。

研究團隊選擇了具有點标注的片段特征初始化原型：

接下來，研究人員使用僞标記的行為片段特征來更新每個類别的原型，具體表述如下：

片段級可靠性感覺優化

為了将片段級可靠原型的特征資訊傳遞到其他片段，研究團隊設計了一個Reliabilty-aware Attention Block（RAB），通過交叉注意力的方式實作了将原型中的可靠資訊注入到其他的片段中，進而增強片段特征的魯棒性，并增加對較不具有判别力片段的關注。

為了學習到更加具有判别裡的片段特征，團隊還建構了可靠性感覺的片段對比損失：

階段二：執行個體級完整性學習

為了充分探索執行個體級别行為的時序結構并優化提議的得分排名，團隊引入了執行個體級别的動作完整性學習。

這種方法旨在通過可靠的執行個體原型的指導，通過執行個體級别的特征學習來精化提議的置信度得分和邊界。

執行個體級可靠原型建構

為了在訓練過程中利用點标注的執行個體級别先驗資訊，團隊提出了一種基于點标注的提議生成方法用于生成不同Reliability的proposals。

根據其可靠性分數和相對點标注的時序位置，這些提議可以分為兩種類型：

可靠提議（Reliable Proposals, RP）：對于每個類别中的每個點，提議包含了這個點，并具有最高的可靠性；
正樣本提議（Positive Proposals, PP）：所有其餘的候選提議。

為確定正樣本和負樣本數量平衡，研究團隊将那些具有類别無關的注意力分數低于預定義值的片段分組為負樣本提議（Negative Proposals, NP）。

執行個體級可靠性感覺優化

為了預測每個提議的完整性分數，研究團隊将敏感邊界的提議特征輸入至得分預測頭φs:

然後用正/負樣本提議與可靠提議的IoU作為指導，監督提議的完整性分數預測：

為了獲得更準确邊界的行為proposal，研究者将每個PP中的proposal的起始區域特征和結束區域特征輸入到回歸預測頭φr中，以預測proposal開始和結束時間的偏移量。

進一步計算得到精細化的proposals，并希望精細化後的proposals與可靠proposal重合。

總之，HR-Pro隻需很少的标注就能很好的效果大幅度降低了擷取标簽的成本，同時又擁有較強的泛化能力，為實際部署應用提供了有利條件。

據此，作者預計，HR-Pro将在行為分析、人機互動、駕駛分析等領域擁有廣闊的應用前景。

論文位址：https://arxiv.org/abs/2308.12608

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

單幀标注視訊就能學到片段特征，達到全監督性能！｜AAAI24

表現比肩全監督方式

學習分兩階段進行

繼續閱讀

《夢中的那片海》溜冰名場面視訊，底下觀衆的評論太有意思了，這劇真的是百看不厭，劇情随便拿個出來都很有讨論欲[呲牙][呲牙

網紅黃一鳴6月11日再發視訊澄清，孩子100%是王思聰的，毋庸置疑是王思聰的。不是為了蹭流量，也不是為了成為富太太，而是

妮娃的日常更了！今天的主題是逛超市！妮娃早早都坐在車上了，老黃曬被子，還遭到了妮娃的厲聲訓斥，依舊是那麼的厲害！一個殘疾

#此生必駕G318城野生活新選擇#日系合資車這是豁出去了嗎？剛剛刷到一條視訊九代凱美瑞前後保險杠被都拆了供消費者觀看，以

榮耀MagicVflip配備“行業最大”的外屏，該機可在未展開的狀态下直接打開部分常用應用，包含地圖、短視訊、社交通訊、

幾個散黃雞蛋打發又是闫少一頓飯。一頓飯也不用10塊錢，一個視訊賺的盆滿缽滿！

#頭條的奇葩經曆#我一直很納悶兒，現在更加納悶兒，頭條為什麼不看看大多數人的反應，那些評論。那些投訴。她雖然換了個名字那

浩浩蕩蕩，望不到頭！這又是誰的部下？裝備如此精良，向南、向東，收複山河、踏平島國，應該十拿九穩吧！近日，有網友上傳了一段

效果對标Sora國産AI視訊應用邀測，快手視訊生成大模型可靈亮相

#曬出你手機裡的花花草草#夏臘梅花兒，大家見過嗎？看了一段視訊，部落客介紹說這種花兒，叫夏臘梅，屬于國家二級保護植物，花兒

不知不覺進頭條六年了。今天剛閑下來，一進頭條就看到頭條系統給我發了條資訊，說的是2018年6月12日，我在頭條釋出了第一

#面對智障的孩子，該怎麼辦#這孩子的父母就知道拍視訊炒作賺錢，網上都是諷刺和謾罵，好像網友們都不是針對這個殘疾孩子，而是

新秀無畏，4999拿下的好本本。如果剛好你想要一個本本，剪輯視訊，或者玩玩遊戲，他都能勝任。喜歡的可以多了解下紅米這款筆

爆瓜了，這幾天都說王思聰疑似有個幾個月大的私生女，不知道是不是真是王思聰的，黃一鳴敢在視訊曝光實言是王思聰的，卻又沒看到

實測完快手的AI視訊「可靈」後，我覺得這才是第一個中國版Sora

王思聰究竟是基因太好還是家庭背景好，那麼多女網紅為了嫁入豪門甘願為王思聰生娃，更直言王思聰不僅人帥有錢基因也好，網友的評