【ICCV 2017論文筆記】我們應當如何了解視訊中的人類行為？

該文主要對視訊行為了解中的行為分類( Action Recognition) 和時序行為檢測( Temporal

深度學習（或者說資料驅動的方法）在各個領域的發展離不開各個領域中資料庫的發展，視訊行為了解領域亦然。從最早的非常簡單的KTH資料庫，到包含各類運動，簡單日常行為的UCF101, THUMOS, HMDB-51等資料庫，再到這兩年類别數量更大，視訊數目也更多的ActivityNet, Charades等資料庫，資料庫的發展也一步一步推動着視訊行為了解方法的發展。本文主要針對Charades資料庫進行了分析，原因大概是因為該資料庫就是本文作者提出的。實際中，這兩年相關的論文在Charades資料庫上進行實驗的似乎并不多見。

本文的結構主要是以幾個問句為主，通過對疑問進行分析來将讨論逐漸推進，每個大問題下還包含一些小問題。本文主要的問題/章節包括以下幾個。

What are the right questions to ask?

What are existing approaches learning?

Where should we look next?

這幾個問題從現有資料庫及任務本身的分析，到算法的分析，最後到未來發展方向的展望，可以說是層層遞進。下面就開始對各個部分進行簡單的介紹。

這部分内容對視訊行為了解任務本身進行了一些基礎的探讨，主要的出發點是研究人類本身如何了解視訊中的人類行為。主要包括兩個子問題。

對于圖像中的物體，其語義的類别通常是非常明确的，一般不存在混淆。然而，用動詞來定義的人類動作其數目則要少很多，且常常存在一定的歧義性。舉例來說，“跑”，“跳”

這些動作本身含有比較明确的定義，而 “拿“，”取“ 這些動作則模糊的多，需要和名詞結合才能明确其意義，比如”拿衣服“，”取藥“等。是以，動詞或是動詞和名詞的組合構成了一個動作的最基本定義。

該文召集了一些志願者，在Charades資料集上進行了一些人類學習實驗。實驗結果表明人類對于動詞比起名詞更容易感到混淆。進一步的實驗也表明了單獨的動詞不能夠對動作進行足夠清晰的描述。是以，動詞和名詞的組合在對動作的描述上是更加清晰的。

對于圖像中的物體來說，其邊界通常是非常明确的，對應的學習任務包括目标檢測以及目标分割。然而，人類行為的時序邊界則常常是不夠明确的。

該文同樣進行了一些人類學習實驗，實驗的内容為讓人類标記者重新來對視訊中的行為邊界進行标定，并與資料庫的真值進行比較。實驗主要有以下幾點觀察：

[1] 在Charades上，人類平均隻能達到72.5%的重疊率（IoU），在Multi-THUMOS資料集中，則隻能達到58.7%。可見即便對于人類，視訊中行為的時序邊界也是比較模糊的。

[2] 動作的結束時間點比起開始時間點存在更多混淆

[3] 時間更長的行為其邊界對于人類來說混淆更小。這表明時間較短的動作需要更小心的标注

[4] 時序邊界的模糊性在各種動作種類中是廣泛存在的

那麼關于時序邊界，可以進一步的問以下的問題：

即在時序動作邊界模糊的情況下，我們是否能夠來評估時序動作定位（時序動作檢測）呢？略去實驗，該文給出的結論是：盡管時序邊界存在模糊性，目前的資料集還是允許我們對動作的時序邊界進行了解，學習以及評估的。

這是該部分的最後一個問題，即時序動作檢測/定位是否值得我們去做。該文衡量了一個假定的完美的行為分類器，在行為檢測任務上進行實驗，在Charades資料集上達到了為56.9%，大約五倍于該資料集上的state-of-the-art的精度。這部分作者講的很不清楚，此處作者應該是用某種方法生成了時序動作的proposal，再用完美分類器對這些proposal進行分類，進而實作檢測的效果。

基于這一點，作者認為對于較短的視訊，專注于行為分類任務比起行為檢測任務能夠帶來更多的檢測精度提升。是以該文的後面部分主要對行為分類任務進行讨論。注意此處作者的觀點，是認為在“短視訊”情況下（此處使用的是Charades資料集），提高分類器的精度更容易帶來檢測精度的提高。但我認為這個僅為該資料集的情況。對于其他一些資料集，如ActivityNet，其分類精度已經相當高了（91%左右），此時比起繼續提高分類器的精度，提高時序動作邊界的定位品質，能夠帶來更多檢測精度的提高。

該部分則主要讨論了現有的模型在學習行為分類的過程中到底學到了什麼。這部分采用了幾種目前比較主流的行為分類算法，以Charades資料集為主進行了實驗分析。

該文首先給出了一個例子，即Two-Stream方法在Charades資料集上的測試結果，第一行為正确的檢測，後面幾行為不同的錯誤檢測例子。

從這張圖檔中，我們可以對模型的缺陷進行如下的分析

模型需要學習區分相似的行為種類，具體讨論見(2)

模型需要發展時序了解的能力，具體讨論見(3)

模型需要了解人本身的存在，具體讨論見(4)

該圖則表現了不同算法的預測結果的分析。可以看出對于動詞和名詞，均存在顯著的混淆情況。

該圖表現了不同的混淆程度對精度的影響。此處的複雜度，如動詞複雜度指同一個動詞，不同名詞組合的數量。數量越多表明混淆情況比較嚴重。大體上可以得出，混淆情況越高，所能達到的精度一般越低。

該部分主要分析了訓練資料以及動作類别的影響。在訓練模型時，使用更多的資料通常能獲得更好的效果，但具體而言如何增加資料才能有效的提高效果呢？本節對樣本數量較多與較少的動作類别分别進行了分析

作者發現，對于大部分動作種類能夠獲益于增加訓練資料數量，即便是其他種類的樣本數量

若将資料集中所有種類的動作的樣本數量限制到100，作者發現擁有更多相似動作的動作類别會有更大的精度下降。這個觀察有一個重要的啟示，即不考慮動作相似性的情況下，進行樣本數量的平衡可能是無益的。

大樣本數量的動作可能更難學習，因為樣本數量多，其類内的姿态多樣性會更大。此外，與其共享名詞（即有相同的互動對象，這點我認為可能是該資料集特性）的動作也更多，使其更易被混淆

作者發現，現在很多方法的精度提高，常常是以為在小樣本數目的動作類别上做的更好了，而非是大樣本數量的動作種類。或許将大樣本數量的動作進行細分是不錯的方法

這部分主要讨論時序上的動作了解。

從該圖可以看出，在分類任務上，現在的方法能更好的處理時間較長的動作，較短的動作因為時序資訊較少是以更難。此外，作者認為結合時序上的預測結果是non-trivial problem, 即一個有意義的問題。實際上今年有不少工作都是通過時序結果的編碼來提高分類的精度。

這一部分作者主要有幾點觀點/結論

基于人體的了解會有助于提高目前行為識别算法的精度

人的姿态在人類行為識别中起到很大的作用

最後一部分中，作者對可以提高的方向進行了一些分析。主要的方式是提供一些額外的資訊，觀察在擁有額外資訊的情況下，模型能夠多大的提高。主要包括以下幾種。

名詞，即已知互動物體

動詞，即已知動作類型

意圖，即對行為進行聚類，幾種相似的行為作為一種意圖，或許可以認為是一大類吧

時間，對于每幀視訊，其距離動作開始和結束時間的時序距離給出

姿态，将所有姿态聚類成500類，提供姿态類别資訊

實驗結果主要是對模型所應該側重的發展方向起一定的啟示作用。

在做視訊行為分析的研究工作時，很多時候會忽略掉一些基礎的資訊，而是埋頭于模型調參。而讀完這篇文章我最大的感受是，在解決一個具體問題的時候，對問題進行細緻的思考和分析非常重要，能夠使得自己在設計方法是更有針對性，也更有效率。上面的比較内容比起原文很簡略，若看完後有興趣還是非常推薦閱讀原文。

原文釋出時間為：2017-09-14

本文作者：林天威

本文來自雲栖社群合作夥伴極市網，了解相關資訊可以關注極市網。

【ICCV 2017論文筆記】我們應當如何了解視訊中的人類行為？

繼續閱讀

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

資料結構與算法（27）——排序（二）

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希