從局部到全局的多模式電影場景分割 CVPR2020
- 個人總結
-
- 1.研究現狀:
- 2.研究的意義:
- 3.提出的解決方案(局部到全局的場景分割模型):
- 4.電影場景資料集:
- 5.結論:
- 全文翻譯
- 從局部到全局的多模式電影場景分割方法
-
- 摘要
- 1.介紹
- 2.相關工作
- 3.電影場景資料集
-
- 3.1場景定義
- 3.2注釋工具和步驟
- 3.3批注統計
- 4.局部到全局的場景分割
-
- 4.1帶有語義元素的鏡頭表示
- 4.2clip級别的鏡頭邊界表示
- 4.3segment級别的粗略預測
- 4.4movie級别的全局最佳分組
- 實驗
-
- 5.1實驗建立
- 5.2定量結果
- 5.3消融研究
- 5.4定性結果
- 5.5跨資料集傳輸
- 6.結論
個人總結
1.研究現狀:
對于電影場景分割,最早的作品采用的是無監督的方法。例如,根據鏡頭相似度對鏡頭進行聚類;繪制低級視覺特征的鏡頭響應曲線進行門檻值分割;使用快速全局k均值算法的光譜聚類進行鏡頭分組;缺點是,方法不靈活,嚴重依賴手動設定的不同視訊的參數。
有監督的方法,建立新的資料集。IBM OVSD、BBC Planet Earth,缺點是,資料集中的視訊缺少豐富的情節或故事情節,測試視訊的數量如此少,不能反應出各種場景方法的有效性。以鏡頭為分析單元,沒有考慮場景中的語義資訊。
圖像和短視訊中的場景了解。缺少周圍的上下文資訊,并且短視訊沒有足夠的時間和地點的變化。重要的是,這些作品假定了一系列可區分的預定義類别。但是,對于電影場景分割,不可能有這樣的類别清單。
較長視訊中的場景了解。很少有資料集關注長視訊中的場景,大多數都集中于演員活動的定位和分類。
2.研究的意義:
識别電影場景,包括場景邊界的檢測和對場景内容的了解,有助于廣泛的電影了解任務,例如場景分類、跨電影場景檢索、人際互動圖和以人為中心的故事情節的建設。
難點,場景的多變性,盡管場景通常發生在固定的位置,但場景可能在多個位置之間穿越,例如在電影的戰鬥場景中,人物從室内移動到室外,這些複雜的場景糾纏在檢測進階語義資訊的場景時增加了難度。
3.提出的解決方案(局部到全局的場景分割模型):
在三個級别對場景進行分割,即clip、segment、movie,內建了多模式的資訊,可以從電影中提取出複雜的語義資訊,為場景分割提供了自上而下的指導。
1)關注場景的邊界,使用監督的方法了解場景之間邊界的内容,獲得區分場景内和跨場景過渡的能力。
2)鏡頭的特征表示,使用四個特征去表示一個鏡頭,分别是place、cast、action和audio。通過鏡頭之間的相似性去判斷兩個鏡頭之間的關系。
在關鍵幀圖像上的Places資料集訓練ResNet去擷取place特征。
在CIM資料集上訓練Fast-RCNN進行檢測cast執行個體,在PIPA資料集上訓練ResNet去提取cast特征。
在AVA資料集上訓練TSN去擷取action特征。
在AVAActiveSpeaker資料集上訓練NaverNet去分離場景的語音和背景聲音,stft在鏡頭中擷取audio特征。
3)Clip級别,對鏡頭邊界的表示。場景分割公式化為鏡頭邊界上的二分類問題,提出一個邊界網絡BNet對鏡頭邊界進行模組化,輸入鏡頭,通過捕獲前後兩個鏡頭的差異和關系,去确定兩者的邊界,輸出鏡頭的邊界。
4)Segment級别,基于鏡頭邊界進行粗略預測場景的邊界。獲得鏡頭邊界的序列後,通過局部序列模型,例如Bi-LSTM,去預測粗略的場景邊界得分,即鏡頭邊界成為場景邊界的機率,然後使用門檻值進行二值化,場景邊界是鏡頭邊界的子集。
5)Movie級别,結合全局上下文資訊進行最佳場景分割。粗略的場景邊界僅僅考慮了局部的鏡頭資訊,而忽略了全局的上下文資訊。使用全局最佳模型G來考慮movie級的上下文。将粗略的場景集進行最佳合并,将局部不相關的粗略場景進行合并,形成最佳的最優的場景切換集。即通過數學模組化出兩個子超級鏡頭之間的相關性得分,得出一個最佳的合并場景集使得相關性得分總和最大。
4.電影場景資料集:
為了促進場景了解,構造了資料集MovieScenes,其中包含了21K個場景,是通過對150部電影中的270K個鏡頭分組得出的。與其他現有的資料集相比,MovieScenes規模巨大,鏡頭數量多,總持續時間長,涵蓋了更廣泛的資料源,擁有各種場景。涵蓋了種類繁多的流派,包括戲劇、驚悚片、動作片,使得資料集更加全面和通用。帶注釋的場景長度從10s到120s不等,提供了較大的可變性。
5.結論:
在這項工作中,我們收集了一個大型注釋集,用于對包含270K注釋的150部電影進行場景分割。我們提出了一個局部到全局場景分割架構,以覆寫分層的時間和語義資訊。實驗表明,該架構非常有效,并且比現有方法具有更好的性能。
全文翻譯
從局部到全局的多模式電影場景分割方法
Anyi Rao1, Linning Xu2, Yu Xiong1, Guodong Xu1, Qingqiu Huang1, Bolei Zhou1, Dahua Lin1 1CUHK - SenseTime Joint Lab, The Chinese University of Hong Kong 2The Chinese University of Hong Kong, Shenzhen {anyirao, xy017, xg018, hq016, bzhou, dhlin}@ie.cuhk.edu.hk, [email protected]
摘要
場景是電影中講故事的重要單元,它包含演員的複雜活動及其在實體環境中的互動。 識别場景的組成是邁向電影語義了解的關鍵一步。與在傳統視覺問題中研究的視訊相比,這是非常具有挑戰性的,例如動作識别,因為電影中的場景通常包含更豐富的時間結構和更複雜的語義資訊。為了實作這一目标,我們通過建構大型視訊資料集MovieScenes來擴大場景分割任務,該視訊資料集包含來自150部電影的21K帶注釋的場景片段。我們進一步提出了一個局部到全局場景分割架構,該架構在三個級别(即clip,segment和movie)上內建了多模式資訊。該架構能夠從長片電影的分層時間結構中提取出複雜的語義,進而為場景分割提供了自上而下的指導。我們的實驗表明,所提出的網絡能夠以較高的精度将電影分割成場景,并且始終優于以前的方法。我們還發現,對MovieScenes進行預訓練可以對現有方法進行重大改進。
1.介紹
想象一下,您正在看湯姆·克魯斯(Tom Cruise)主演的電影《碟中諜》:在戰鬥現場,伊桑(Ethan)跳上直升機的着陸滑道,并在擋風玻璃上貼上了爆炸膠,以摧毀敵人。突然,這個故事跳入一個激動人心的場景,在此,伊桑(Ethan)扣動扳機,為挽救妻子朱莉娅(Julia)犧牲了生命。如此戲劇性的場景變化在電影的故事講述中起着重要作用。一般來說,電影是由精心設計的一系列有趣的場景組成的,帶有過渡效果,其中基本的故事情節決定了所呈現場景的順序。是以,識别電影場景,包括場景邊界的檢測和對場景内容的了解,有助于實作廣泛的電影了解任務,例如場景分類,跨電影場景檢索,人際互動圖和以人為中心的故事情節的建設。

圖1.當我們檢視圖(a)中的任何單個鏡頭時,例如B鏡頭中的女人,我們無法推斷目前事件是什麼。如圖(b)所示,隻有當我們考慮了該場景中的所有鏡頭1-6時,我們才能認識到“這個女人正在邀請一對夫婦與樂隊跳舞”。
值得注意的是,場景和鏡頭本質上是不同的。通常,鏡頭是在不間斷的時間内進行拍攝的,是以是連續的。場景是更高層次的語義單元。如圖1所示,一個場景包括一系列鏡頭,以呈現故事中語義上連貫的部分。是以,盡管可以使用現有工具根據簡單的視覺提示将電影輕松地劃分為鏡頭[23],但是識别構成場景的鏡頭子序列的任務是一項艱巨的任務,因為需要順序地進行語義了解發現這些鏡頭之間的關聯在語義上是一緻的,但實際上是不相似的。
關于視訊了解已經進行了廣泛的研究。盡管在這一領域取得了長足的進步,但是大多數現有的作品都集中在從短視訊中識别某些活動的類别[28,6,14]。更重要的是,這些作品假定了一系列可區分的預定義類别。但是,對于電影場景分割,不可能有這樣的類别清單。 另外,根據鏡頭的語義連貫性将鏡頭分為場景,而不僅僅是視覺提示。是以,為此需要開發一種新方法。
要關聯視覺上不同的鏡頭,我們需要有一定的了解。這裡的關鍵問題是“沒有類别标簽,我們如何學習語義?” 我們解決這個問題的想法包括三個方面:
1)我們不嘗試對内容進行分類,而是關注場景邊界。我們可以通過監督的方式了解構成場景之間邊界的内容,進而獲得區分場景内和跨場景過渡的能力。
2)我們利用包含在多個語義元素中的線索,包括place,cast,action和audio,來識别鏡頭之間的關聯。通過整合這些方面,我們可以超越視覺觀察,更有效地建立語義聯系。
3)我們還将從對電影的整體了解中探索自上而下的指導,這将進一步提高性能。
基于這些想法,我們開發了一個局部到全局架構,該架構通過三個階段執行場景分割:
①從多個方面提取鏡頭表示;
②根據內建資訊進行局部預測;
③最後優化通過解決全局優化問題對鏡頭進行分組。
為了促進這項研究,我們建構了MovieScenes,這是一個大型資料集,其中包含超過21K的場景,其中包含來自150部電影的270,000張快照。
實驗表明,與現有的最佳方法相比,我們的方法将性能提高了68%(以平均精度從28.1提高到47.1)[1]。在我們的資料集上進行預訓練的現有方法在性能上也有很大的提高。
2.相關工作
場景邊界檢測和分割。最早的作品采用了多種無監督的方法。[22]根據鏡頭顔色相似度對鏡頭進行聚類。在[17]中,作者繪制了來自低級視覺特征的鏡頭響應曲線,并設定了剪切場景的門檻值。[4,3]使用帶有快速全局k均值算法的光譜聚類進一步對鏡頭進行分組。[10,24]通過優化預定義的優化目标,通過動态程式設計來預測場景邊界。研究人員還求助于其他模态資訊,例如 [13]利用HMM腳本,[23]使用低級視覺和音頻功能建構場景過渡圖。這些無監督的方法不靈活,并且嚴重依賴手動設定不同視訊的參數。
研究人員轉向有監督的方法,并開始建立新的資料集。IBM OVSD [21]由21個短視訊組成,場景粗糙,可能包含多個情節。BBC Planet Earth [1]來自BBC紀錄片的11集。[15]從Places205 [31]生成綜合資料。但是,這些資料集中的視訊缺少豐富的情節或故事情節,是以限制了其在現實世界中的應用。測試視訊的數量如此之小,以至于不能反映出考慮各種場景的方法的有效性。另外,他們的方法以鏡頭為分析單元,并在局部區域中遞歸實作場景分割。 由于他們沒有考慮場景中的語義,是以很難學習進階語義并獲得理想的結果。
圖像和短視訊中的場景了解。基于圖像的場景分析[31,29,9]可以推斷出一些有關場景的基礎知識,例如該圖像中包含什麼。但是,很難從單個靜态圖像中分辨出該動作,因為它缺少周圍的上下文資訊。幾秒鐘長的短視訊進一步研究了動态場景了解[6,14]。但是,與長視訊相比,所有這些視訊都拍攝的單次拍攝視訊沒有足夠的變化來捕捉時間和地點的變化。
較長視訊中的場景了解。很少有資料集關注長視訊中的場景。大多數可用的長視訊資料集都集中于識别電影或電視連續劇中的演員[2、12、16]以及對活動進行定位和分類[8]。 MovieGraphs [26]專注于電影中的各個場景剪輯以及場景的語言結構。場景之間的某些過渡部分将被丢棄,進而使資訊不完整。
為了實作可以擴充到長時間視訊的更通用的場景分析,我們使用大型MovieScenes資料集解決了電影中的場景分割問題。我們提出了一個架構,該架構使用多個語義元素同時考慮了局部鏡頭之間的關系和全局場景之間的關系,進而獲得了更好的分割結果。
3.電影場景資料集
為了促進電影中的場景了解,我們構造了MovieScenes,這是一個大型場景分割資料集,其中包含21K個場景,這些場景是通過對150部電影中的270K鏡頭進行分組而得出的。該資料集為研究場景中的複雜語義提供了基礎,并促進了對場景頂部進行基于情節的長視訊了解。
3.1場景定義
按照場景[17、4、10、24]的先前定義,場景是基于情節的語義單元,在一組特定的角色之間發生的一種确切的活動。盡管場景通常發生在固定的位置,但場景可能連續在多個位置之間穿越,例如在電影的戰鬥場景中,人物從室内移動到室外。這些複雜的場景糾纏在準确檢測需要進階語義資訊的場景時增加了難度。圖2展示了MovieScenes中帶注釋的場景的一些示例,證明了這一困難。
圖2.電影Bruce Almight(2003)中帶注釋的場景示例。底部的藍線對應于整個電影時間線,其中深藍色和淺藍色區域表示不同的場景。在場景10中,角色在兩個不同的地方打了電話,是以需要對該場景進行語義了解,以防止将其歸類為不同的場景。在場景11中,由于此現場廣播場景涉及三個以上位置和角色組,是以任務變得更加困難。在這種情況下,視覺提示僅可能失敗,是以包含其他方面(例如音頻提示)變得至關重要。
電影場景的多樣性使注釋者難以互相遵守。為了確定來自不同注釋的結果的一緻性,在注釋過程中,我們提供了歧義示例的清單,并提供了具體的指導以闡明應如何處理此類情況。 此外,所有資料均由不同的注釋者獨立多次注釋。最後,我們提供的多次批注和指導提供了高度一緻的結果,即總計89.5%的高度一緻性案例,如表1所示。
表1. MovieScenes的資料一緻性統計資訊。我們根據注釋者的一緻性将所有注釋分為三類:高/低一緻性情況和不确定情況。不确定的案例在我們的實驗中被丢棄。更多詳細資訊在補充材料中指定。
3.2注釋工具和步驟
我們的資料集包含150部電影,如果注釋者一幀一幀地浏覽電影,這将是一項艱巨的工作。我們采用基于鏡頭的方法,前提是應該始終将鏡頭唯一地分類為一個場景。是以,場景邊界必須是所有鏡頭邊界的子集。對于每部電影,我們首先使用現成的方法将其分為鏡頭[23]。這種基于鏡頭的方法大大簡化了場景分割任務,并加快了注釋過程。我們還開發了基于Web的注釋工具,以友善注釋。所有注釋者都經過兩輪注釋過程,以確定高度一緻性。在第一輪中,我們将電影的每個塊配置設定給三個獨立的注釋器,以供以後進行一緻性檢查。在第二輪中,不一緻的注釋将重新配置設定給兩個附加的注釋器,以進行額外的評估。
3.3批注統計
大規模。表2比較了MovieScenes和現有的相似視訊場景資料集。我們顯示,在鏡頭/場景數量和總持續時間方面,MovieScenes明顯大于其他資料集。此外,與短片或紀錄片相比,我們的資料集涵蓋了更廣泛的各種資料源,可以捕獲各種場景。
多樣性。我們資料集中的大多數電影具有90到120分鐘的持續時間,可提供有關各個電影故事的豐富資訊。涵蓋了種類繁多的流派,包括最流行的流派,例如戲劇,驚悚片,動作片,使我們的資料集更加全面和通用。帶注釋的場景的長度從少于10s到大于120s不等,多數情況持續10到30s。Movie級别和scene級别都存在這種較大的可變性,這使得電影場景分割任務更具挑戰性。
表2.現有場景資料集的比較。
4.局部到全局的場景分割
如上所述,場景是一系列連續的鏡頭。是以,可以将場景分割公式化為二分類問題,即确定鏡頭邊界是否是場景邊界。但是,此任務并不容易,因為分割場景需要識别多個語義方面并使用複雜的臨時資訊。
為了解決這個問題,我們提出了一個局部到全局場景分割架構(LGSS)。模拟的整體過程如公式1所示。具有n個鏡頭的電影被表示為鏡頭序列[s1,…,sn],其中每個鏡頭都具有多個語義方面。我們基于鏡頭表示si設計一個三級模型來合并不同級别的上下文資訊,即cilp級别(B),segment級别(T)和movie級别(G)。
我們的模型給出了一系列預測[o1,···,on-1],其中oi∈{0,1}表示第i個鏡頭和第(i + 1)個鏡頭之間的邊界是否是場景邊界。
在本節的以下部分中,我們将首先介紹如何擷取si,即如何使用多個語義元素來表示鏡頭。然後我們将說明模型三個層次的詳細資訊,即B,T和G。總體架構如圖3所示。
圖3.局部到全局場景分割架構(LGSS)。在clip級别,我們為每個鏡頭提取四種編碼,并使用BNet模組化鏡頭邊界。局部序列模型在segment級别輸出粗糙的場景切換結果。最後,在movie級别,應用全局最佳分組來優化場景分割結果。
4.1帶有語義元素的鏡頭表示
電影是一種典型的多模式資料,其中包含不同的進階語義元素。從神經網絡的鏡頭中提取的全局特征在以前的工作中被廣泛使用[1,24],但不足以捕獲複雜的語義資訊。
場景是一系列鏡頭共享一些常見元素的場景,例如place、cast等,是以,重要的是要考慮這些相關的語義元素,以更好地表示鏡頭。在我們的LGSS架構中,鏡頭用四個元素表示,它們在場景的構成中起着重要作用,即place,cast,action和audio。
為了獲得每個鏡頭si的語義特征,我們利用:
1)在關鍵幀圖像上的Places資料集[31]上預訓練的ResNet50 [11]以擷取place特征,
2)在CIM資料集[12]上預訓練的Faster-RCNN [19]進行檢測cast執行個體,在PIPA資料集[30]上預訓練ResNet50以提取cast特征,
3)在AVA資料集[8]上預先訓練的TSN [27]以擷取action特征,
4)NaverNet [5]在AVAActiveSpeaker資料集[20]上進行了預訓練,以分離語音和背景聲音,stft [25]在具有16K Hz采樣率和512視窗信号長度的鏡頭中分别獲得其特征,并将它們連接配接起來以獲得audio特征。
4.2clip級别的鏡頭邊界表示
如前所述,場景分割可以公式化為鏡頭邊界上的二分類問題。是以,如何表示鏡頭邊界成為至關重要的問題。在這裡,我們提出了一個邊界網絡(BNet)對鏡頭邊界進行模組化。如公式2所示,BNet(用B表示)以2wb鏡頭作為輸入的電影clip,并輸出邊界表示bi。出于直覺,邊界表示應同時捕捉鏡頭前後的差異和鏡頭之間的關系,BNet由兩個分支Bd和Br組成。Bd由兩個臨時的卷積層模組化,每個卷積層都在邊界的前後都嵌入了鏡頭,然後進行内積運算去計算他們的差異。Br的目的是捕獲鏡頭之間的關系,它是由一個臨時卷積層緊跟着一個最大池化層實作的。
4.3segment級别的粗略預測
在獲得每個鏡頭邊界bi的代表之後,問題就變成了根據表示序列[b1,···,bn-1]的序列來預測序列二進制labels [o1,o2,···,on-1],可以通過序列到序列模型[7]解決。但是,鏡頭數量n通常大于1000,這對于現有的順序模型很難儲存這麼長的記憶體。是以,我們設計了一個segment級模型,以基于包含wt鏡頭(wt≪ n)的電影片段來預測粗略結果。具體來說,我們使用序列模型T,例如Bi-LSTM [7],步幅為wt / 2,可預測一系列粗略得分[p1,…,pn-1],如式3所示。pi∈[0,1]是鏡頭邊界成為場景邊界的機率。
然後,我們得到了一個粗略的預測oi∈{0,1},該預測表明第i個鏡頭邊界是否為場景邊界。通過将pi通過門檻值τ進行二值化,我們得到
4.4movie級别的全局最佳分組
Segment級别模型T獲得的分割結果o¯i不夠好,因為它隻考慮wt鏡頭的局部資訊,而忽略了整個電影的全局上下文資訊。為了捕獲全局結構,我們開發了全局最佳模型G來考慮電影級上下文。它将鏡頭表示si和粗略預測o¯i作為輸入,并做出如下最終決定oi,
全局最優模型G被公式化為一個優化問題。在介紹它之前,我們先建立超級鏡頭和目标函數的概念。
局部分割為我們提供了一個初始的粗糙場景剪切集C = {Ck},這裡我們将Ck表示為超級鏡頭,即由segment級别結果[o¯1,…,,o¯n-1]确定的一系列連續鏡頭。我們的目标是将這些超級鏡頭合并為j個場景Φ(n = j)= {φ1,…,φj},其中
和|φk| ≥1。由于沒有給出j,是以要自動确定目标場景編号j,我們需要檢視所有可能的場景切換,即
。對于固定的j,我們想要找到最佳場景切換集
。總體優化問題如下:
在此,g(φk)是由場景φk獲得的最佳場景切換得分。它公式化了超級鏡頭Cl∈φk與其餘超級鏡頭Pk,l =Φk\ Cl之間的關系。g(φk)構成兩個項以捕獲全局關系和局部關系,Fs(Ck,Pk)是Ck和Pk之間的相似性得分,而Ft(Ck,Pk)是一個訓示函數,表明Ck與來自Pk的任何超級鏡頭之間是否有非常高的相似性,目的是在場景中建立鏡頭線程。特别,
DP.通過動态程式設計(DP)可以有效地解決優化問題并确定目标場景編号。F(n = j)的更新是
其中C1:k是包含前k個超級鏡頭的集合。
疊代優化。上面的DP可以給我們一個場景切換的結果,但是我們可以進一步将這個結果當作一個新的超級鏡頭集,并疊代地合并它們以改善最終結果。當超級鏡頭更新時,我們還需要更新這些超級鏡頭表示形式。對于所有包含的鏡頭進行簡單的彙總對于超級鏡頭可能不是理想的表示,因為有些鏡頭包含的資訊較少。是以,最好在最佳分組中優化超級鏡頭的表示。 補充中給出了有關超級鏡頭表示的這種改進的細節。
實驗
5.1實驗建立
資料。我們使用MovieScenes資料集實作所有基線方法。整個注釋集根據視訊級别按10:2:3的比例分為Train,Val和Test集。
實施細節。我們将交叉熵損失用于二分類。由于資料集中存在不平衡現象,即非場景轉換鏡頭邊界占主導地位(大約9:1),是以我們分别将非場景轉換鏡頭邊界和場景轉換鏡頭邊界的交叉熵損失設為1:9權重。我們使用Adam優化器對這些模型進行了30個時期的訓練。初始學習速率為0.01,在第15個時期将學習速率除以10。
在全局最優分組中,根據獲得的這些鏡頭邊界的分類分數(通常一個電影包含1k〜2k鏡頭邊界),我們從局部分割中取j = 600 超級鏡頭。目标場景的範圍從50 到400,即i∈[50,400]。這些值是根據MovieScenes統計資訊估算的。
評估名額。我們采用三種常用的度量标準:
1)平均精度(AP)。特别是在我們的實驗中,它是每部電影的AP的平均值oi = 1。
2)Miou:檢測到的場景邊界的并交的權重總和,即其與最近的GroundTruth場景邊界的距離。
3)Recall @ 3s:每隔3秒鐘調用一次,已注釋場景邊界的百分比位于預測邊界的3s之内。
5.2定量結果
總體結果顯示在表3中。我們重制了具有深層位置特征的現有方法[18、4、10、21、24、1],以進行公平比較。基本模型對具有place特征的鏡頭應用時間卷積,我們逐漸向其中添加以下四個子產品,即
1)多個語義元素(Multi-Semantics),
2)Clip級别的鏡頭邊界表示(BNet),
3)使用局部序列模型(Local Seq)在segment級别進行粗略預測,以及
4)在movie級别(Global)進行全局最優分組。
表3.場景分割結果。在我們的管道中,“多語義”表示多個語義元素,“ BNet”表示鏡頭邊界模組化邊界網,“ Local Seq”表示局部序列模型,“ Global”表示全局最優分組。
總體結果分析。随機方法的性能取決于測試集中場景過渡/非場景過渡鏡頭邊界的比率,該比率約為1:9。所有正常方法[18、4、10、21]的性能均優于随機方法。但是,由于它們僅考慮本地上下文資訊而無法捕獲語義資訊,是以無法獲得良好的性能。[24,1]通過考慮大範圍資訊,比正常方法[18,4,10,21]取得了更好的結果。
分析我們的架構。我們的基本模型将時間卷積應用于具有place特征的鏡頭,并在AP上達到19.5。借助多種語義元素,我們的方法從19.5(基本)提高到24.3(多語義)(相對而言提高了24.6%)。使用BNet進行鏡頭邊界模組化的架構将性能從24.3(多語義)提高到42.2(多語義+ BNet)(相對于73.7%),這表明在場景分割任務中,直接對鏡頭邊界進行模組化是有用。局部序列模型(Multi-Semantics + BNet + Local Seq)的方法比模型(Multi Semantics + BNet)從42.2到44.9可獲得2.7的絕對改善和6.4%的相對改進。完整的模型包括局部序列模型和全局最佳分組(多語義+ BNet +局部序列+全局),進一步将結果從44.9提高到47.1,這表明電影級優化對于場景分割非常重要。
總而言之,借助多個語義元素,clip級别的鏡頭模組化,segment級别的局部序列模型和movie級别的全局最佳分組,我們的最佳模型大大優于基本模型和以前的最佳模型[1],提高了27.6。在基礎模型(Base)上,絕對值提高了142%,在暹羅模型上,絕對值提高了19.0,相對提高了68%[1]。這些驗證了此局部到全局架構的有效性。
5.3消融研究
多個語義元素。我們以鏡頭邊界模組化BNet,局部序列模型和全局最優分組為基礎模型。如表4所示,逐漸添加中層語義元素提高了最終結果。從僅使用place的模型開始,audio改進了4.4,action改進了6.5,cast改進了4.0,并且總體改進了8.1。該結果表明,place,cast表,action和audio在形成中都有助于場景分割。
另外,借助我們的多語義元素,其他方法[21、24、1]可以實作20%到30%的相對改進。 該結果進一步證明我們的假設,即多語義元素有助于場景分割。
表4.多個語義元素場景分割消融結果,其中研究了四個元素,包括place,cast,action和audio。
時間長度的影響。我們在clip級别(BNet)的鏡頭邊界模組化中選擇了不同的視窗尺寸,在segment級别(Local Seq)中選擇了Bi-LSTM的不同序列長度。結果顯示在表5中。實驗表明,較長的資訊範圍可以提高性能。有趣的是,最好的結果來自用于鏡頭邊界模組化的4個鏡頭和作為局部序列模型的輸入的10個鏡頭邊界,總共涉及14個鏡頭資訊。這大約是一個場景的長度。它表明此時間資訊範圍有助于場景分割。
表5.在clip和segment級别的不同時間視窗大小的比較。垂直線在clip級别鏡頭邊界模組化(BNet)的視窗大小上有所不同,水準線在segment級别序列模型的長度(seq)上有所不同。
全局最優分組中超參數的選擇。我們将優化的疊代次數(Iter#)和初始超級鏡頭數目(Init#)不同,并将結果顯示在表6中。
表6.全局最佳分組中不同超參數的比較以及初始超級鏡頭數的不同選擇。
我們首先檢視每一行,然後更改初始超級鏡頭數量。初始編号為600的設定可獲得最佳效果,因為它接近目标場景編号50到400,同時確定了足夠大的搜尋空間。然後,當我們檢視每列時,我們發現初始編号為400的設定以最快的方式收斂。經過2次疊代,它可以很快獲得最佳結果。并且所有設定都覆寫5次疊代。
5.4定性結果
定性結果顯示了我們的多模式方法的有效性,如圖4所示,全局最優分組的定性結果如圖5所示。
圖4.多個語義元素的解釋,其中每個語義元素的相似性規範由相應的條長表示。這四個影片剪輯說明了不同元素如何有助于場景的預測。
多個語義元素。為了量化多個語義元素的重要性,我們采用每種模式的餘弦相似度範數。 圖4(a)顯示了一個示例,其中連拍在連續鏡頭中非常相似,有助于場景的形成。在圖4(b)中,角色及其動作難以辨認:第一個鏡頭是人物很小的長鏡頭,而最後一個鏡頭隻顯示了一部分人物而沒有清晰的面孔。在這些情況下,由于這些鏡頭之間共享了相似的音頻功能,是以可以識别場景。圖4(c)是一個典型的“電話”場景,其中每個鏡頭的動作都相似。在圖4(d)中,隻有一個地方是相似的,我們仍将其總結為一個場景。從以上對更多此類情況的觀察和分析中,我們得出以下經驗結論:多模式資訊互相補充,有助于場景分割。
最佳分組。我們展示了兩種情況,以證明最佳分組的有效性。圖5中有兩個場景。如果沒有全局最佳分組,則具有突然視點變化的場景很可能會預測場景轉換(圖中的紅線),例如, 在第一種情況下,當鏡頭類型從全景拍攝變為近景拍攝時,粗略預測會得到兩個場景切換。 在第二種情況下,當出現極端特寫鏡頭時,粗略預測會得到場景切換。我們的全局最佳分組能夠按預期消除這些多餘的場景切換。
圖5.兩種情況下全局最優分組的定性結果。在每種情況下,第一行和第二行分别是在全局最優分組之前和之後的結果。兩張照片之間的紅線表示有場景切換。每種情況的基本事實是這些鏡頭屬于同一場景。
5.5跨資料集傳輸
我們通過對MovieScenes資料集進行預訓練,在現有資料集OVSD [1]和BBC [21]上測試了DP [10]和Siamese [1]的不同方法,結果如表7所示。通過對我們的資料集進行預訓練,性能可以達到顯着改善,即AP的絕對改善約10%,相對改善約15%。原因是我們的資料集涵蓋了更多的場景,并為其上訓練的模型帶來了更好的生成能力。
表7.現有資料集上的場景分割跨資料集傳輸結果(AP)。
6.結論
在這項工作中,我們收集了一個大型注釋集,用于對包含270K注釋的150部電影進行場景分割。我們提出了一個局部到全局場景分割架構,以覆寫分層的時間和語義資訊。實驗表明,該架構非常有效,并且比現有方法具有更好的性能。成功的場景分割能夠支援許多電影了解應用程式。本文所有研究共同表明,場景分析是一個充滿挑戰但有意義的話題,值得進一步研究。
緻謝這項工作得到了香港普通研究基金(GRF)的部分支援(No.14203518和編号14205719)和SenseTime協作式贈款,用于大規模多模式分析。