語義感覺視訊文本檢測
摘要
現存大多數視訊文本檢測方法使用外觀特征跟蹤文本,這非常容易受到角度和光照的影響。與外觀特征相比,語義特征對于比對文本執行個體更加具有魯棒性。本文中,我們提出了一個新字元中心分割分支來提取編碼了字元類别和位置的語義特征。首先,我們提出了一個新外觀-語義描述符來追蹤文本執行個體,其中語義特征能夠改善外觀變化的魯棒性。為了克服字元級标注的缺失,我們提出了一個新弱監督字元中心檢測子產品,該子產品僅使用單詞級标注的真實圖檔類産生字元級标簽。提出的方法在3個視訊文本基準ICDAR 2013 Video,Minetto和RT-1K,以及兩個中文場景文本基準CASIA10K和MSRA-TD500達到了SOTA表現。
1 引言
視訊文本檢測目标于定位并追蹤視訊中的文本執行個體。近些年,由于它在視訊分析和多媒體資訊資料檢索的廣泛使用,它已經引起了很多注意。盡管之前的方法對文本檢測和跟蹤都做出了巨大的貢獻,但這仍是一項有挑戰性的工作因為運動模糊和照明變化。
大多數現有方法把文本檢測和追蹤分别對待,首先檢測單幀,然後基于檢測結果進行追蹤。然而,這些方法忽視了時間文本和檢測與追蹤之間的資訊互動。最近,Yu等人提出了一種端到端可訓練架構來整合文本檢測和追蹤,其中外形幾何描述符主要基于文本外形,這非常容易受到視角和光照變化影響。與外形特征相反,語義特征是比對文本執行個體的穩定提示。比如,大多數文本執行個體比對失敗因為巨大視角變化如圖1(a)。然而,相同文本執行個體從不同角度來看字元位置和類别是相似的。當存在先驗語義特征的時候,可以如圖1(b)一樣糾正錯誤比對結果。盡管單詞級和字元級标注都提供語義資訊,字元級标注包含更多的細節結構資訊,這對于文本追蹤更加有利于參考。不幸的是,真實資料集的字元級标注成本太高。

圖1 a)從不同角度,文本外形變化非常大,這使得追蹤分支難以比對到執行個體。b)字元的類别和位置能夠幫助追蹤分支更準确地比對執行個體。相同顔色地邊框屬于同一軌迹,點表示字元中心。
為了自動産生真實資料集的字元級标注,一些方法提出弱監督學習這一途徑。在這些方法中,一個字元檢測器首先在合成資料集上訓練,然後再在真實圖像上訓練檢測字元。這些方法主要有兩個缺點。一方面,合成圖像和真實圖像有巨大的域差,這使得字元檢測器在真實圖像上的性能不令人滿意。另一方面,廣泛使用的合成資料集隻有英文,是以該種方法難以适用于其他沒有合成資料的語種。
為了克服缺少字元級标注資料的同時發掘視訊文本檢測中的語義資訊,我們提出了一個語義感覺的視訊文本檢測架構,如圖2,其中字元級标注直接由單詞級真實資料産生。具體地,一個ConvLSTM塊用來傳播幀級資訊,以便充分利用視訊上下文内容。然後,Mask R-CNN中mask頭的一個字元中心分割任務設計用來字元的編碼位置和類别作為語義特征。基于外形特征和新加的語義特征,Appearance-semantic-geometry descriptors(ASGD)引入用來穩定表示文本執行個體,其與存儲的先前幀的ASGD比對以實作文本跟蹤。盡管提出的架構需要字元級标注,我們采用一個基于文本識别器的滑窗來自動檢測字元中心,而識别器隻需要單詞級标注的真實圖像來訓練。這使得我們的架構易于應用在多種語種,比如中文,這一典型多字集。就我們所知,這是第一個引入語義特征到文字檢測追蹤的視訊文字檢測器,并且隻使用單詞級标注真實圖像生成字元級标注。
我們的貢獻有3方面:
1)提出了一個新型端到端視訊文字檢測器,統一了文本、字元檢測,和文本追蹤。
2)提出了一個外形-語義-幾何描述符,其中語義特征幫助改善外形變化的魯棒性。
3)字元級标注以弱監督方式産生,這提高了我們方法的實用性。
提出方法在文本檢測和追蹤都同樣有效,已經在3個視訊文本資料集ICDAR 2013 Video,Minetto,和RT-1K,以及兩個中文場景文本資料集CASIA10K和MSRA-TD500上達到了SOTA表現。
2 相關工作
視訊中的文本檢測工作通常結合一個單幀文本檢測器和一些專門的追蹤技術。是以,我們回顧了單幀文本檢測器和視訊文本檢測的相關工作。更多細節,詳見調查[51, 48, 55]。
2.1 單幀文本檢測器
傳統方法首先檢測文本部件,然後将這些元件聚合成最終檢測結果。這些方法的缺陷在于誤差累積和效率低下。基于回歸的方法采用了類似于一般目标檢測的思想,但有一些特定文本的修改。為了檢測任意形态文本,一些方法首先檢測本地單元,然後把它們聚合成最後結果。
最近,一些方法使用字元級标注來給文本檢測提供細節語義資訊。Baek等人通過探索每個字元和字元間的親和度來檢測文本執行個體。Xing等人一次性檢測單詞和字元的邊框。Liao等人在Mask R-CNN的基礎上增加了一個字元分割分支。然而,這些方法需要合成資料集來預訓練字元檢測器。不同于這些方法,我們提出的方法直接從真實資料集中産生字元級标簽,這更具有實際意義。
2.2 視訊文本檢測
大多數視訊文本檢測方法基于追蹤單幀檢測結果。Zuo等人提出了一個多政策文本追蹤方法,融合了多種追蹤技術的優點。Tian等人提出了一個統一的基于動态規劃的文本檢測系統追蹤方法。Yang等人使用基于運動的方法跟蹤相鄰幀中的提案。然而,這些方法忽視了視訊中的時間内容。
為了捕捉空間-時間資訊,Wang等人利用了連續幀中的文本線索的時間相關性。Yu等人使用ConvLSTM來捕捉長時間空間-時間資訊。盡管這些方法已經有了很大的進步,但是追蹤分支還是主要基于文本外形特征,對于外形變化非常敏感。我們提出的方法采用了一個外形-語義-幾何描述符,使得架構對外形變化具有魯棒性。
3 方法
圖2為提出端到端視訊文本檢測器的總覽。stem網絡提取視覺特征後,一個ConvLSTM塊用于提取空間-時間資訊。然後,我們嵌入一個字元中心分割任務在mask頭中來定位識别字元,這可以提取語義特征。最後,文本追蹤頭産生外形-語義-幾何描述符,用于與前幀檢測到的文本執行個體進行比對。另外,引入一個基于文本識别器的滑窗來為字元中心分割任務提供字元級标簽。文本識别器以弱監督方式定位字元中心。接下來,我們将較長的描述文本檢測、文本追蹤、弱監督字元檢測和推理流程。
圖2 總覽提出的架構。一個字元中心分割任務嵌入在Mask R-CNN的mask頭中提取語義特征,使外形-語義-幾何描述符(ASGD)對外觀變化具有魯棒性。
3.1 文本檢測
與場景圖像不同的是,視訊總是包含備援的時間資訊。是以,我們采取了一個ConvLSTM塊來整合長期的時間資訊。将第 t t t幀由主幹網絡提取的視覺特征表示為 V t V_t Vt。ConvLSTM塊的輸出 F t F_t Ft可以表示為:
( F t , h t ) = C o n v L S T M ( V t , h ( t − 1 ) ) (F_t,h_t)=ConvLSTM(V_t,h_{(t-1)}) (Ft,ht)=ConvLSTM(Vt,h(t−1))
其中 h t h_t ht和 h ( t − 1 ) h_{(t-1)} h(t−1)表示時間 t t t和 t − 1 t-1 t−1時刻的隐藏狀态。這樣,特征可以在長時間範圍内傳播幀級資訊。
整合時間資訊後,我們采用Mask R-CNN來預測軸對齊的矩形邊框和對應的執行個體分割掩膜,這包含兩階段。首先,一個區域提案網絡(RPN)用來提出一組候選文本RoI。接着,RoIAlign操作從每個RoI中的 F t F_t Ft提取特征,提取的特征用于分類,邊框回歸和執行個體分割。由于Mask R-CNN以執行個體分割的方式檢測任意形狀的文本,我們為每個任意形态的文本掩膜比對了一個最小封閉的旋轉矩形。
為了增強檢測性能并提取後續跟蹤頭部的語義特征,我們在Mask R-CNN的基礎上添加了一個字元中心分割分支。這個分支有兩個帶有3×3核的卷積層和一個stride2的上采樣層。接着,特征圖用于生成最終通道數為 S S S的分割圖, S S S是字元類别數加背景類别的總數。對于每個字元中心,我們認為中心附近距離 r r r以内的像素為正。參數 r r r與文本邊界最短邊成0.2比例。然後,通過在一個零初始化的掩膜上繪制擴充的字元中心區域并用它們相應的類别索引填充這些區域生成GT圖 C ∗ C^* C∗。将 C ∗ C^* C∗中像素點的數量表示為 N N N。字元中心分割的損失函數是一個權重空間softmax損失,如下:
L c h a r = − 1 N ∑ n ∈ N W n ∑ s ∈ S C n , s ∗ l o g ( e C n , s ∑ k ∈ S e C n , k ) L_{char}=-\frac 1 N \sum_{\mathclap ~n \in N}W_n\sum_{\mathclap ~s \in S}C^*_{n,s}log(\frac {e^{C_{n,s}}} {\sum_{\mathclap ~k\in S}e^{C_{n,k}}}) Lchar=−N1 n∈N∑Wn s∈S∑Cn,s∗log(∑ k∈SeCn,keCn,s)
其中 C C C表示輸出圖, W W W是權重矩陣來平衡正負損失。正像素和負像素的數量分别為 N p o s N_{pos} Npos和 N n e g N_{neg} Nneg。正像素的權重為1,負像素的權重為 N p o s / N n e g N_{pos}/N_{neg} Npos/Nneg。
結合字元中心分割損失,文本檢測損失函數計算如下:
L d e t = L r p n + α 1 L m a s k + α 2 L m a s k + α 3 L c h a r L_{det}=L_{rpn}+\alpha_1L_{mask}+\alpha_2L_{mask}+\alpha_3L_{char} Ldet=Lrpn+α1Lmask+α2Lmask+α3Lchar
其中, L r p n L_{rpn} Lrpn, L r c n n L_{rcnn} Lrcnn和 L m a s k L_{mask} Lmask分别表示RPN,Fast R-CNN和執行個體分割的損失函數。 α 1 \alpha_1 α1, α 2 \alpha_2 α2,和 α 3 \alpha_3 α3均設為1。
Mask TextSpotter v1-v2也結合了原始Mask R-CNN和字元分割任務。然而,這些方法需要字元級标注的合成圖檔與真實圖像訓練。不同于Mask TextSpotter,我們檢測器所使用的字元級标注均隻來自于單詞級标注真實圖像,将在3.3中描述。
圖3 提出的描述符 A S G D t ASGD_t ASGDt包含外形特征 f t a f^a_t fta,語義特征 f t s f^s_t fts,和幾何特征 f t g f^g_t ftg
3.2 文本追蹤
以前的方法利用從文本RoI中提取的外形特征追蹤文本。但是,大緻的外形特征使得文本追蹤很容易受到視角和照明變化的影響。不是隻考慮文本外形特征,我們認為語義特征可以提供穩定先驗資訊給追蹤。是以,我們編碼字元的位置和類别作為追蹤任務的一部分輸入。為了穩健地表示文本執行個體,我們提出了一個新地外形-語義-幾何描述符(ASGD),包含圖3所示3個部分。首先,我們利用RoIAlign層提取RoIs中 F t F_t Ft的特征,然後兩個全連接配接層用來将提取的特征映射成新的。我們把新特征稱謂文本外形特征 f t a f_t^a fta。第二,我們同樣使用兩個全連接配接層來映射字元分割分支第二卷積層的中間特征成語義特征 f t s f_t^s fts,它編碼了字元的位置和類别。第三,RoIs的坐标嵌入為幾何特征 f t g f_t^g ftg。最後,這三部分拼接成描述符 A S G D t ASGD_t ASGDt。如下表示:
A S G D t = C o n c a t ( [ f t a , f t s , f t g ] ) ASGD_t = Concat([f_t^a,f_t^s,f_t^g]) ASGDt=Concat([fta,fts,ftg])
為了訓練文本追蹤分支,我們使用一對幀,一個作為查詢幀,一幀作為參考幀。對于查詢幀,我們提取與GT至少有70%IoU的RoIs中的特征。對于參考幀,我們不需生成RoIs,可直接使用GT框的區域提取特征。為了比對相同目标的文本執行個體,我們與[52]的想法相同,使得描述符對于正對接近,負對遠離。但是,正對之間的距離難接近0,因為運動引起的差異。是以,我們采用基于對比損失的平滑雙邊際損失。将ASGD中查詢幀和參考幀之間的距離定為 d d d。文本追蹤的損失函數可以表示為:
L t r a c k = y ( R ( d − m p ) ) 2 + ( 1 − y ) ( R ( m n − d ) ) 2 L_{track}=y(R(d-m_p))^2+(1-y)(R(m_n-d))^2 Ltrack=y(R(d−mp))2+(1−y)(R(mn−d))2
其中 R R R表示 R e L U ReLU ReLU函數, m p m_p mp和 m n m_n mn表示正對和負對的邊緣。我們令 m p = 0.3 , m n = 1.0 m_p=0.3,m_n=1.0 mp=0.3,mn=1.0。 y y y是對标簽,1表正對,0表負對。
對于文本檢測和追蹤的端到端訓練,整個損失函數可以如下表示:
L = L d e t + β L t r a c k L=L_{det}+\beta L_{track} L=Ldet+βLtrack
其中, β \beta β是平衡檢測和追蹤的超參。在實驗中設為0.5。
3.3 弱監督字元檢測
因為字元級标注需要非常多的人工,以前的方法通常使用合成資料集産生字元級标簽。但是,合成資料集主要是英語,并且合成圖檔和真實圖檔之間有非常大的域差。是以,我們提出了一個弱監督字元檢測子產品來為字元中心分割任務提供字元級标簽,隻需要單詞級标注真實圖檔。在訓練集上産生字元級标注的流程如圖4。首先,使用RoIRotate操作将文本執行個體轉成軸對齊的。接着,采用基于滑窗的文本識别器來分類每個視窗。當字元位于滑窗的中心時,識别器能以高分識别出字元。當滑窗中心與字元不對齊時,識别器會輸出空白标簽或者低分。最終,我們在滑窗上實施了NMS,并将選取的滑動視窗中心轉換回輸入圖像作為字元中心标簽。
圖4 生成字元級标簽的管線。識别結果中,第一項是分類結果,第二項為分數。“-”表示空白。為更好的可視化,我們隻顯示了部分滑窗。
表1 基于文本識别器的滑窗結構。每一卷積層後跟着批量歸一化層,和一個ReLU層。 S S S是字元類數,對英文集是37,中文集7357。
為了訓練文本識别器,我們首先轉換訓練集的文本執行個體成軸對齊的,高度統一為32。然後在轉換後的文本執行個體上用步長為 l l l的視窗滑動。對于英文文本 l = 2 l=2 l=2,中文 l = 4 l=4 l=4。最終,将滑窗輸入到一個類似VGG的網絡,并分類。文本識别器的結構如表1。為了将标簽分布解碼成最終序列,我們采用Connectionist Temporal Classification(CTC)解碼,并假定每個滑窗為一個時間步長。令CTC路徑為 π \pi π,映射函數為 B B B。GT真值 y ∗ y* y∗的條件機率是B中所有路徑的機率之和(翻譯不是很對,原文“the sum of the probabilities of all the paths by B”:
P ( y ∗ ∣ X ) = ∑ π ∈ B − 1 ( y ∗ ) P ( π ∣ X ) P(y^*|X)=\sum _{\mathclap ~\pi \in B^{-1}(y^*)}P(\pi |X) P(y∗∣X)= π∈B−1(y∗)∑P(π∣X)
目标是最大化上面公式的對數似然性。文本識别的損失函數如下:
L r e c = − l o g p ( y ∗ ∣ X ) L_{rec}=-log~p(y^*|X) Lrec=−log p(y∗∣X)
盡管文本識别器容易拟合小資料集,但在大型資料集上難以達到滿意表現,尤其在字元類别分布不均衡的情況下。是以,我們提出了一個疊代訓練處理來改善在訓練集上的性能。我們使用一個簡單的規—如果識别結果與GT相同時,認定字元中心檢測結果為“正确”。提出的疊代訓練處理具體如下:
i)首先在整個訓練集上訓練最初文本識别器直到損失變得穩定。然後,在相同的訓練集上測試模型。
ii)根據以前的規則,我們選擇帶有正确識别結果的文本執行個體來建構字元級标簽,并把它們從訓練集中移除。訓練的文本識别器繼續在減少的訓練集上訓練。
iii)訓練過程是疊代進行來改善字元中心檢測結果。如實驗所示,當疊代次數增加,文本識别器可以把注意更多地放在難樣本和稀少字元上。
3.4 推理
該方法生成文本檢測結果,并以線上方式比對檢測到的文本執行個體。對 t t t時刻的一幀,我們首先檢測所有的文本執行個體,并用公式4擷取對應的 A S G D t ASGD_t ASGDt。然後,計算 A S G D t ASGD_t ASGDt和先前檢測到的文本執行個體的存儲 A S G D ASGD ASGD之間的相似性矩陣。最後,使用門檻值為 θ m \theta_m θm的Kuhn-Munkres算法得到比對對。如果文本執行個體找到比對的文本執行個體,我們就更新存儲中的軌迹集和對應的 A S G D ASGD ASGD。注意每個軌迹集隻儲存最新的 A S G D ASGD ASGD。對于沒有比對到的文本執行個體,我們為它們建立新的軌迹,并在記憶體中插入它們的 A S G D ASGD ASGD。總之,提出的方法在ICDAR 2013 Video資料集上能達到9.6FPS。
4 實驗
我們在3個英文視訊資料集上評估了文本檢測和追蹤性能。因為沒有公開的非英文視訊資料集,我們在兩個中文場景圖檔資料集上證明了我們方法在非英文資料集上的應用性。
4.1 資料集
ICDAR 2013 Video。本資料集包含13個訓練視訊和15個測試視訊,它們是從室内外場景采集的。分辨率從720×480到1280×960。另外,每個文本以單詞級的4點矩形标注。
Minetto。Minetto資料集有5個室外視訊。分辨率固定為640×480。每個文本是用軸對齊的邊框标注的。用ICDAR 2013 Video訓練的模型,直接測試該資料集。
RT-1K。RT-1K資料集包含1000個道路視訊,包含700訓練,300測試。我們在此資料集上評估來證明提出方法在大尺度視訊文本集上的優越性。
CASIA10K。這個資料集是大尺度中文場景文本集,包含7000訓練圖檔和3000測試圖檔。鑒于無廣泛使用的中文合成資料集,以前的方法難以獲得字元級标注。
MSRA-TD500。MSRA-TD500由300張訓練圖檔和200張測試圖檔構成。主要是中英文,每個文本是行标注。
4.2 實施細節
本方案實施于PyTorch,在常見工作站Nvidia Titan Xp上運作。我們采用ResNet-50-FPN作為莖網絡,它已經在ImageNet資料集上預訓練過。Mask R-CNN的配置遵循MS COCO上的公共實施。整個模型訓練12 epochs。初始學習速率為0.03,在第8個和第11個epochs上衰減10倍。測試時,輸入圖像的短邊固定為800像素。
基于文本識别器的滑窗輸入圖像固定為高32像素,不改變橫縱比。為了并行訓練,将寬度填充至512。訓練識别器的初始lr為0.1,在epoch 50和80,衰減0.3倍(×0.3)。在疊代訓練階段,我們固定學習速率為0.009,當損失變得平穩時,結束訓練。訓練階段數為3。
4.3 與SOTA相比
我們在一些資料集上與以前的工作相比,來證明本方法的優越性。
4.3.1 視訊文字檢測
我們的方法在3個視訊文本資料集上達到了SOTA性能,見表2,3,4,5。在語義特征的幫助下,我們的方法對于視角和照明的變化是魯棒的,并在檔案檢測和追蹤任務中表現優于以往工作。值得注意的是,用于訓練階段的字元級标注來源于弱監督方法,這更具實踐意義。一些定性結果如圖5所示。
圖5 文本檢測和追蹤結果。第一二行:視訊文本檢測。相同顔色的框屬于同一軌迹。第三行:單幀文本檢測。
4.3.2 單幀文本檢測
我們的方法同樣在兩個中文場景文本資料集上達到SOTA,見表6,7。單幀檢測器是除開ConvLSTM塊和文本追蹤損失的部分。因為本方法隻需要單詞級标注真實圖,是以非常容易應用在非英文資料集上。我們同樣與其他基于字元的方法比較了在英文場景文本資料集ICDAR 2015的檢測表現。見表8。本方法與SOTA方法(需要合成資料集來生成字元級标簽的)可一較高下。這顯示了本方法的優越性。一些單幀文本檢測器結果如圖5。
4.4 消融研究
我們進行了一些比較實驗來證明語義特征、疊代訓練處理、和端到端訓練的優勢。
表2 ICDAR 2013測試集上視訊文本檢測結果。“W/o sf”表示沒有語義特征。
表3 Minetto測試集上視訊文本檢測結果。“W/o sf”表示沒有語義特征。
表4 RT-1K測試集上視訊文本檢測結果。“W/o sf”表示沒有語義特征。除了我們模型之外的資料從[27]中獲得。
表5 Minetto測試集上視訊文本追蹤結果。“MOTP”和“MOTA”表示多目标追蹤精度和多目标追蹤準确率。“W/o sf”表示沒有語義特征。
表6 CASIA10K測試集上檢測結果。“W/o sf”表示沒有語義特征。除了我們模型之外的資料從[11]中獲得。
表7 MSRA-TD500測試集上檢測結果。“W/o sf”表示沒有語義特征。
表8 ICDAR 2015測試集上的檢測結果。“P、R、F”分别表示Precision, Recall, F-measure。
4.4.1 語義特征的影響
字元的位置和類别能夠提供穩健的語義特征給文本追蹤和檢測。沒有了語義特征,文本追蹤很容易受到外形變化的形象。同時,檢測器可能忽視掉一些不顯眼的文本執行個體。為了證明語義特征的優點,我們評估了本方法的一個變體,該變體消除了字元中心分割損失,并且文本跟蹤分支中的描述符僅由外觀和幾何特征組成。見表2,3,4,5,提出方法在文本檢測和追蹤上僅優于一個沒有使用語義特征的方法。我們同樣展示了沒有語義特征在中文資料集上的性能,見表6,7,這說明了語義特征對于中英都有好處。
4.4.2 疊代訓練的影響
提出的疊代訓練處理目的是逐漸提高字元中心檢測性能,尤其是當字元分布不均勻時。為了證明疊代訓練的重要性,我們從CASIA10K中标注了500張圖像的字元中心,并評估了每個疊代中字元檢測性能。如表9示,初始行準确率和字元檢測表現非常差,因為字元類别多且不均勻。随着疊代數增加,行準确率與字元檢測效果持續上升。在3個疊代步驟後,行準确率與字元檢測效果超過95%,這使得我們可以隻利用單詞級标注真實圖檔訓練字元中心分割分支。一些定性結果見圖6。
圖6 疊代訓練處理可以改善大尺度資料集的字元中心檢測性能。從左到右:初始-最終檢測結果。黃色點表示字元中心檢測結果。紅色短線框表示初始文本檢測器難以檢測有噪點,朦胧和少見的字元。
表9 疊代訓練改善了字元檢測性能。“Line Accuracy”基于CASIA10K整個訓練集評估。“Detection accuracy”基于500張我們自标注的圖像評估。在Step0,文本識别器訓練100epochs,其他steps則是20epochs。
4.4.3 端到端訓練的影響
大多數以往方法将文本檢測和追蹤分開執行,這就忽視了兩者之間的相關性。不像這些方法,本方案在一個端到端架構中統一了檢測與追蹤。為了證明端到端訓練的效果,我們評估了一個檢測與追蹤分離的本方案變體。見表2,3,5,提出方法優于變體“兩階段”一大截,這說明了這兩個任務彼此有益于對方。
5 結論
本文提出了一個新型語義感覺的視訊文本檢測器,通過合并語義資訊來改善檢測和追蹤性能。文本檢測器同時檢測文本執行個體和字元中心,可以提取語義特征。有了語義特征的幫助,文本追蹤分支面對外形變化時更有魯棒性。并且,我們提出了一個基于文本識别器的滑動視窗,可以從單詞級标注真實資料集中生成字元級标簽,這避免了對合成資料集的要求及其缺點。在一些資料集上的實驗證明了本方法的有效性。未來的改進工作将是結合多級語義特征來處理更複雜的場景視訊。