李飛飛力贊論文：描述視訊密集事件新模型 !（附論文）

前幾日李飛飛發了一條推文：

推文内容：

大意為：我的學生最近的論文被TechCrunch網站選為“計算機視覺最前沿的十篇論文”之一，我真是為它們感到驕傲。繼Imagenet後，計算機視覺仍然在不斷突破我們的想象力。

既然是大神李飛飛的得意門生，必是值得一讀的大作。其實這篇論文早在今年5月就已公布，不少知乎網友也紛紛給出了自己的解讀。在這篇文章中，第一部分為論文的摘要及引言翻譯，第二部分為解讀（不代表本文觀點），希望對你有所幫助。

若需參看原文，請查閱文末連結。

摘要

大多數視訊都包含着大量事件。舉例來說，在一段鋼琴演奏視訊中，可能不僅僅包含鋼琴演奏者，還可能包含着跳舞的人，或者鼓掌的觀衆。本論文提出了密集事件描述任務——檢測和描述視訊中的事件。作者提出了一個新模型，它可以識别出視訊某一通道中的所有事件，同時還能用自然語言描述檢測出的事件。

我們的模型介紹了一個與已有方法不同的描述子產品，它可以捕捉到發生時間為幾分鐘到幾十分鐘的事件。為了捕捉視訊中不同僚件間的關系，該模型引入了一種新的描述子產品（captioning module），該子產品可以結合從過去和未來事件中得出的上下文資訊，用它們來描述所有事件。作者還提出了ActivityNet Captions，這是一個用于密集事件描述任務的大型基準測試資料集。這個資料集包含了2萬個視訊（共長達849小時）以及10萬條帶有開始和結束時間的描述資訊。最後，作者報告了該模型在密集事件描述、視訊檢索和定位任務中的性能。

圖1：密集事件描述任務要求模型檢測和使用自然語言描述視訊中發生的每個事件。這些事件有各自的開始時間和結束時間，是以事件可能同時發生，在時間上發生重疊。

引言

利用大型的活動資料集，模型可以将視訊中的事件分類為一系列互不關聯的行為類别。例如，在圖1中，此類模型會輸出“彈鋼琴”或“跳舞”這樣的标簽。盡管這些方法取了很好的結果，但是它們有一個重要的局限：細節。

為了解決現有行為檢測模型的細節缺失問題，論文作者通過試驗探讨了如何使用語句描述解釋視訊含義。例如，在圖1中，模型可能會集中注意在人群前彈奏鋼琴的老人。雖然模型可以通過描述告訴我們是誰在談鋼琴以及現場有一群觀衆在觀看表演，但是它未能識别并描述出視訊中的所有其他事件。例如，在視訊中的某一點，一位女士開始跟着演奏者一起唱起歌來，之後一名男士開始伴着音樂跳起舞來。為了讓模型能識别并以自然語言描述視訊中的所有事件，作者提出了密集事件描述任務，這種任務要求模型根據視訊中發生的多個事件生成一系列描述，并在視訊中對這些事件進行時間上的定位。

密集事件描述任務類似于密集圖像描述任務。不同之處在于：前者要求模型對視訊中的事件進行描述和時間上的定位，而後者則要求模型對圖像區塊（regions）進行描述和空間上的定位；處理這兩種任務時需要解決的問題不同。視訊中的事件可能發生于多個時域内，不同的事件可能會重疊在一起。

在視訊中，鋼琴演奏這個事件可能從頭到尾都在發生，但是觀衆鼓掌這個事件隻發生了十幾秒。為了捕捉到所有事件，我們需要對長視訊序列和短視訊序列進行編碼，來對事件進行描述。以往的方法使用均值池化法或循環神經網絡（RNN）對整個視訊序列進行編碼，進而繞過了這個問題。在處理短視訊時此類方法很好用，但是如果對長達幾分鐘或幾十分鐘的長視訊序列進行編碼，就會出現梯度消失的問題，進而導緻無法成功地訓練模型。為了克服這個局限，作者将 action proposals生成上的近期研究成果應用到了多時域事件檢測任務中。另外，作者引入的子產品在前向通道中處理每個視訊，這樣模型就可以在事件發生的同時對其進行檢測。

該論文還發現：視訊中的各事件之間往往存在聯系。在圖1中，觀衆鼓掌的原因是因為演奏者表演了鋼琴彈奏。是以。模型必須能夠利用從前後事件中得出的上下文資訊，來捕捉每個時間。最近發表的一份論文試圖通過多個語句來描述視訊中的事件；但是論文中使用的是“烹饪”教學視訊，視訊中的事件和物體之間存在很高的關聯性，而且事件有一定的發生順序。

作者證明了他們的模型并不能适用于“開放”時域（“open” domain）視訊，這此類視訊中，事件的發生是由行為主導的，而且不同僚件可能會重疊在一起。作者提出了一種描述子產品，該子產品可以使用action proposal子產品中所有事件的上下文資訊，為每個事件生成描述語句。另外，作者還給出了一個描述子產品（captioning module）的變體，這個變體可以隻根據前面發生的事件，對流視訊（streaming video）中的事件生成描述。本論文中的模型參考前面和後面發生的事件，證明了使用上下文資訊的重要性。

為了評估模型在密集事件描述任務中的性能以及基準的提高程度，我們引入了ActivityNet Captions資料集。ActivityNet Captions包含20000個采集自ActivityNet的視訊，每個視訊包含一系列時序定位的描述語句。為了驗證模型對長視訊序列的檢測，資料集中包含有長達10分鐘的視訊，每個視訊平均标記有3.65個語句。這些語句描述的是可能同時發生并導緻視訊片段重疊的事件。雖然本論文使用的是關于人類活動的視訊，但是描述可能會涉及非人為事件，例如：兩個小時後，材料一塊美味的蛋糕。作者使用衆籌（crowdsourcing）的方式收集描述，在這個過程中發現時序事件視訊片段之間存在高度的一緻性。這一發現驗證了一些研究的結論:大腦活動會被本能地轉化為在語義上有意義的事件。

借助ActivityNet Captions，我們率先在密集事件描述任務中得出結果。我們結合使用了proposal子產品和線上描述子產品，證明了我們可以檢測和描述長視訊或流視訊中的事件。而且，我們證明了我們能夠檢測出長視訊序列和短視訊序列中的事件。另外，我們還證明了使用從其他事件中得出的上下文資訊可以提升模型在密集事件描述任務中的性能。最後，我們證明了ActivityNet Captions可以被用于研究視訊檢索和事件定位。

關于這篇論文，營長就不做過多解析了，以下是知乎上兩位同學的分析，供參考。

知乎答主：米特蘭

整個架構主要分成兩部分：proposal module和captioning module。

模型如下：

1.給定視訊，生成特征序列。實驗中以16幀為機關，輸入C3D提取特征。

2.proposal module。proposal module是在DAPs的基礎上做了一點修改，即在每一個time step輸出K個proposals。采用LSTM結構，輸入上述C3D特征序列，用不同的strides提取特征序列，strides={1,2,4,8}。生成的proposal在時間上會有重疊。每檢測出一個event，就将目前的隐藏層狀态作為視訊描述。

3.captioning module。利用相鄰事件的context來生成event caption。采用LSTM結構。

将所有的事件相對于目前事件分成兩個桶：past events和future events。并發事件則依據結束時間分成past events和future events。計算公式如原文，不在此列出。

4.損失函數由兩部分組成：

都采用cross-entropy。

5.實驗：baseline：LSTM-YT、S2VT、H-RNN、full model和online model。其中full model是本文中模型，online model是在full model中隻采用past events，而不采用future events。

6.評估：分别對proposal module和captioning module進行評估。

proposal model：recall，依賴兩個條件：

the number of proposals and

the IoU with ground truth events。同時也測試不同的strides在event localization中的效果。

captioning module：采用video retrieval。即給定視訊不同部分的描述，在測試集中檢測出正确的視訊。

本文模型解決的問題：

視訊長短不一緻。

事件之間的互相聯系。

我認為本文的主要貢獻有以下幾點：

提出proposals module+captioning module，隻處理一次視訊就能同時生成short和long event。

利用neighboring events的context生成current event caption。

提出ActivityNet Captioning資料集

知乎答主：楊科

framework大緻是：action segmentation proposal + video caption，首先做行為片段（或者說segmentation of interest吧）proposal，然後在proposal上做video caption；其中action segmentation proposal用的是eccv16的DAPs【1】。

關于video caption，諸位可以去看知友@林天威最近的專欄文章（天威的專欄幹貨滿滿，做video相關的研究可以關注一下）

我感覺最大的貢獻是提出了這個dense video caption 的資料集（或者說task）吧，算法隻是做一個baseline而已，（資料集在ActivityNet上加上了caption 的标注，ActivityNet是目前最火的行為識别/檢測challenge的視訊資料集)。

原文釋出時間為：2017-11-11

本文作者：Ranjay Krishna, Kenji Hata,Frederic Ren, Li Fei-Fei, Juan Carlos

李飛飛力贊論文：描述視訊密集事件新模型 !（附論文）

繼續閱讀

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

anaconda中科大鏡像

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

NLP從入門到放棄_IBM Model1IBM Model1

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

K-近鄰算法以及圖像分類應用

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡