背景
近年來短視訊應用大火,視訊媒體逐漸成為使用者消費的主要内容載體之一,對視訊内容的精準檢索成為重要的技術需求。自然文本描述和視訊進行跨模态檢索(Cross-Modal Text-Video Retrieval)是最符合自然人機互動的方式之一,通過描述文本語義特征和視訊了解多模态特征的相關性計算,滿足使用者對視訊内容的檢索需求。本文工作針對淘寶首猜全屏頁、逛逛等内容場景,采用文本-視訊跨模态檢索的方法,實作淘寶大規模内容标簽和視訊的挂靠[1,3]。

- 内容文字檢索标簽;
- 圖像序列檢索标簽;
- 視訊多模态内容檢索标簽。
如下圖視訊内容文本與主題标簽内容存在顯著差異,視訊内容文字檢索标簽的方式由于視訊文本資訊不足,難以比對精準的主題标簽滿足使用者的内容消費需求。視訊圖像分析主要了解視覺畫面資訊,缺少對文本語義的挖掘,語義資訊不足以準确檢索出符合的主題标簽。考慮到标題文本資訊不足語義缺失的問題以及視訊多模态内容資訊互補性的優勢,視訊多模态内容檢索标簽的方法更加貼合内容标簽和淘寶視訊挂靠的任務。
相關工作
跨模态檢索的主要技術挑戰在于底層特征異構,高層語義相關。目前跨模态檢索主流的技術方法是編碼不同模态資料到共同的隐空間,消除不同模态資料的語義gap實作語義特征的對齊,計算不同模态資料之間的特征相似度實作準确的檢索。早期工作主要采用RNN類模型對文本側進行特征編碼,采用CNN類模型對視訊圖像側進行特診編碼,接着結合ranking loss進行度量學習[10-13]。下一階段工作着重于語義局部對齊,主要有幾個思路:
- 文本側分解文本的字詞,圖像側切分圖像區域,基于互動注意力實作局部特征細粒度對齊[9]。
- 分别對文本側字詞和圖像側圖像區域建構圖網絡結構,結合GCN學習局部特征之間相關性10。
- 文本和圖像的互相生成,通過對抗訓練實作局部語義的對齊[12]。
以上前沿工作主要在圖像-文字檢索任務上實作,目前圖像-文字檢索任務在集團内部業務上的嘗試也取得了不錯的效果,如誇克圖搜[6],封面圖挑選[7,8]。以上論文工作目前在各大公開資料集達到了十分卓越的性能,但是應用于本文工作時存在以下問題:
- 文本-視訊檢索資料來源于淘寶點選日志,樣本不均衡問題是個重大挑戰。
- 語義局部對齊有不同模态特征的互動計算,在大規模召回場景中向量檢索效率低下。
- 如何更加有效地表征視訊多模态資訊,融合互補多模态資訊檢索準确的主題标簽。
對于視訊-文字檢索任務,視訊内容的多模态特點和時空資訊複雜性讓該檢索任務更具挑戰性。本文工作針對視訊-文字檢索任務展開研究和讨論,實作基于圖神經網絡的視訊跨模态檢索算法。
算法
本文的任務場景是給定淘寶視訊标題内容文本、視訊圖像以及主題文本标簽,完成文本到視訊的跨模态檢索,進一步提升檢索準确率。為此設計的算法思路着力于消除不同模态的語義鴻溝,同時保證同模态内容的語義判别性。
考慮到淘寶主題标簽與視訊資料挂載分布特點和大規模高效檢索的需求,文本與視訊的大規模檢索拟解決的挑戰如下:
- 訓練樣本稀疏和均衡:主題标簽關聯商品或視訊内容有不同熱度和關注人群密度,點選日志中主題與視訊挂靠呈現不均衡性和稀疏性,如何實作建構更多的隐Pair訓練過程中進行資料增強。
- 同模态語義判别性:主題标簽與視訊的比對二值标簽無法提供單模态同語義樣本的度量限制。
- 多目标學習:同模态度量學習和跨模态度量學習的聯合訓練。
- 大規模檢索效率:語義相關性模型檢索效率比語義檢索模型低,采用雙塔模型結構實作。
針對上述技術挑戰,本文的算法模型設計結合圖神經網絡GraphSAGE[15]的雙塔檢索架構,該架構的優點:
- 通過圖網絡建構緩解訓練樣本稀疏和均衡問題。樣本1和樣本2有點選Pairs标簽,樣本3和樣本2内容表達一緻但沒有點選Pairs标簽,在圖網絡中拉近樣本1和樣本3的特征距離來間接拉近樣本2和樣本3的特征距離。
- 圖網絡中同模态和跨模态端到端的度量學習進一步保證不同模态的語義一緻性和同模态語義的判别性。
- 可以實作高效的大規模檢索。
該模型主要包括文本編碼模型、視訊多模态編碼模型、圖網絡算法模型、度量學習模型。
文本編碼
文本編碼将主題标簽文本轉為定長實數向量,該向量能夠反映主題内容資訊,與視訊編碼向量進行相似度計算。本文在實驗中嘗試過通用預訓練BERT、淘内預訓練RoBert、Transformer等結構,最後綜合考慮性能和效率采用了從頭開始訓練的6層Transformer結構。其首先對query進行分詞,每個分詞的word embedding初始參數随機;分詞長度固定,不足補零,過長直接截斷;整個文本所有參數random初始化,和檢索模型一起端到端訓練參數更新。
視訊編碼
視訊編碼模型主要是将視訊多模态資料轉化成反映視訊内容的特征向量。為了提升訓練效率,本文的視訊多模态表征向量采用淘内資料預訓練的視訊多模态預訓練模型離線提取的特征,嘗試的模型包括雙流網絡結構LXMERT[3,13]和單流網絡結構UniterVideo[4,5,14]。多模态模型輸入每個視訊幀提取的inception V4圖像特征以及視訊對應的描述資訊,例如視訊标題,summary等資訊,設計了4個task,Mask Language Model(MLM), Mask Region Model(MRM), Video Text Match(VTM)以及商品類目分類模型(CLS),整體模型結構如下。
圖網絡模型
本文工作在經典雙塔模型的技術上嵌入GraphSAGE圖神經網絡模型,在大規模圖上學習結點embedding,集團的GraphLearning圖學習架構為本文的算法提供了架構基礎。整體的圖網絡學習架構如下,其中輸入特征分别來自文本編碼和視訊編碼的輸出特征。
- 大規模異構圖建構
建圖的合理性和準确性是影響圖結點特征學習的重要因素,從提升結點覆寫率和構邊置信度兩個目标出發,本文采用先驗特征相似和後驗點選行為對視訊和主題标簽建構圖網絡。
基于使用者點選行為建圖
- 文本-視訊 異構圖:在雲主題搜尋、内容搜尋、淘寶經驗、手淘搜尋等搜尋場景中使用者在主題标簽或query下挂的視訊清單中觸發的點選行為作為文本-視訊異構構邊的依據。
- 文本-文本/視訊-視訊 同構圖:在雲主題搜尋、内容搜尋、淘寶經驗、手淘搜尋等搜尋場景,同一使用者在同一query下點選的視訊有高度相關的語義,同一使用者在聚合主題下點選的外透視訊内容也十分類似,這些視訊兩兩構邊。同一視訊挂靠的主題标簽和搜尋query也同理構邊。
基于語義相似度建圖
- 文本-文本/視訊-視訊 同構圖:對于新樣本和冷啟動樣本采用文本或視訊預訓練模型提取的特征計算語義相似度,分别在視訊池和語料庫中選取相似度最高的TOP10樣本構邊。對于新樣本和冷啟動樣本采用文本或視訊預訓練模型提取的特征計算語義相似度,分别在視訊池和語料庫中選取相似度最高的TOP10樣本構邊。
- 鄰結點采樣
圖結點鄰居采樣的方式常用包括:随機采樣,随機廣度采度,随機遊走采樣Random Walk。考慮到經典随機遊走算法對于度大節點的偏向性問題,本文采用修正改進版本的遊走政策,降低度大節點的遊走機率, 結點圖檔對鄰居結點采樣機率為:
其中,圖檔表示結點圖檔的鄰結點集,圖檔、圖檔分别表示結點圖檔和圖檔的度數。
- 特征聚合
在圖結點特征聚合上本文采用pooling聚合,先對每個鄰居結點上一層embedding進行非線性轉換,再按次元應用 max/mean pooling,捕獲鄰居集上的顯著特征以此表示目标結點embedding。具體pipeline如下:
在特征聚合政策上,考慮跨模态檢索的目的是實作不同模态資料在高維空間的語義對齊,消除資料模态差異的存在,是以本文根據聚合鄰結點的類型,嘗試采用實驗了三種不同的聚合政策:
- 同構聚合,目标結點隻聚合同模态的鄰結點
- 異構聚合,目标結點隻聚合不同模态的鄰結點
- 混合聚合,目标結點随機聚合鄰結點
在第四小節的實驗對比可以看出同構聚合政策性能最佳。
度量學習
- 正負樣本設定
跨模态訓練任務的視訊-文本異構正樣本通過異構邊直接擷取,異構負樣本的選擇采用自适應五元組損失AOQ Loss[16]采用Batch内線上難樣本挖掘Online Hard Sample和離線難樣本挖掘Offline Hard Sample選擇線上局部負樣本和離線全局負樣本。
單模态訓練任務的視訊-視訊、文本-文本的同構正樣本分别來自同構邊的一跳和二跳遊走采樣鄰結點,負樣本在全圖進行随機采樣。
- 目标優化函數
本文設計的損失函數包括兩部分:
- 同模态度量損失和有無邊二分類損失。同模态度量損失是距離限制,保證在高次元量空間拉近正樣本距離,拉遠負樣本對距離;有無邊二分類損失本質是根據圖的結構建構正負樣本的相關性限制。
- 跨模态自适應五元組度量損失。線上難樣本挖掘有兩個主要不足:
- 負樣本選擇政策具有局部性、"難度"不足;
- 對于正樣本對和負樣本對的懲罰力度一緻,不同難度的樣本對應有不同的優化更新力度。
本文采用自适應五元組損失損失,自适應調整正樣本對、線上負樣本對、離線負樣本對的更新權重,達到在相似度方面正樣本對>線上負樣本對>離線負樣本對的目的。
損失公式表達:
同模态度量損失:
同模态有無邊二分類損失:
跨模态度量損失:
其中圖檔表示文本768維特征向量,圖檔表示視訊768維特征向量,圖檔表示文本正樣本,圖檔表示視訊正樣本,圖檔表示文本局部負樣本,圖檔表示視訊局部負樣本,圖檔表示文本全局負樣本,圖檔表示視訊全局負樣本,圖檔、為超參數,圖檔表示文本同構邊, 圖檔表示文本同構邊, 圖檔表示訓示函數,圖檔表示距離間隔,圖檔表示負樣本數量。
- 訓練細節
整個檢索模型以端到端的方式進行訓練,訓練分兩輪。第一輪次訓練跨模态部分度量學習僅采用線上難挖掘損失,訓練優化過程進行學習率warm up。早期訓練容易出現模型崩塌現象,hard triplet loss促使各樣本點映射到同一個點,loss收斂到margin。為解決該問題FaceNet采用semi-hard triplet loss可以使模型訓練更加穩定、收斂更快,但達不到hard triplet loss的更優解。本文選擇在學習率warm up期間采用負樣本線上随機采樣,模型訓練穩定之後采用線上難樣本挖掘訓練直到收斂。第一輪次訓練完成之後,訓練樣本進行全局語義檢索尋找全局難負樣本,建構五元組進行第二輪次訓練。
在原始訓練資料的基礎上,本文嘗試進一步采用半監督學習的方式進行訓練資料的擴量,訓練完成的模型在萬象城視訊庫召回更多的僞比對樣本,訓練資料的擴量帶來更大的性能提升。
實驗
檢索衡量名額采用檢索召回準确率Top1,Top5,Top20 以及Mean Rank值。1K淘寶樣本對檢索性能如下。基于預訓練Roberta文本特征的視訊文本-标簽文字檢索方式與基于多模态特征的視訊多模态-标簽文本的檢索方式性能有明顯差距,視訊多模态資訊的互補增益更好地實作淘寶視訊内容了解。視訊多模态-标簽文本的檢索方式在引入圖神經網絡算法後在Top1準确率上有超過9.0%的性能提升,圖結構資訊的引入進一步提升了視訊和文本結點的語義表征能力。模型在度量學習上結合離線全局負樣本采樣和線上局部負樣本采樣的方式在Top1準确率上提升2.0%,采樣不同難度的負樣本使模型收斂到更優點。本文嘗試通過半監督的方式擴量訓練集召回更多僞比對樣本,對模型性能有更佳的增益。
公開資料集實驗
本文算法應用于MSCOCO Retrieval資料集做性能測試。MSCOCO Retrieval資料集的5K檢索任務性能結果對比如下,其中對比方法主要限定采用雙塔模型結構、特征提取無需模态間互動對齊計算、适用于大規模檢索的方法。本文工作達到了于同期前沿工作具有競争力的性能。
消融對比及可視化
- 聚合政策
圖結點表示的三種不同的聚合政策性能結果對比如表所示,本小節實驗結果在模型[Uniter | transformers | GNN]實作,檢索衡量名額同樣采用檢索召回準确率Top1,Top5,Top20 以及Mean Rank值。
異構聚合政策比同構聚合政策在Top1準确率跌落幾個百分點,存在的原因有:
- 圖網絡建構準确率還不夠高,采樣的異構結點與目标結點存在語義不配現象;
- 不同模态資料在聚合過程中非線性變換處理沒有根據模态差異設定不同的優化參數,目前采用的聚合過程的線性層采用共享參數。
- 樣本可視化
本文抽取部分測試樣本,模型提取文本特征和視訊特征并進行進行T-SNE處理可視化,如下圖所示,其中藍色表示文本樣本,紅色表示視訊樣本,可以看出同内容語義的文本視訊來高維空間得到很好的聚類效應,并且同其他不同内容語義的樣本保持一定間隔距離。GNN的引入使得同模态正樣本之間的距離更加拉近。
- 主題标簽召回示
主題标簽在千萬級首猜精品視訊池進行向量檢索,手淘全屏頁[3]主題标簽召回示例case:
讨論和展望
本文對淘寶内容場景下的文本視訊跨模态檢索問題進行了研究和讨論,指出跨模态檢索目前存在的訓練樣本稀疏均衡問題、跨模态度量學習的技術挑戰和高效檢索問題,并對此做出了深入分析,提出了結合GraphSAGE圖網絡算法的雙塔跨模态檢索模型,分别對同模态和跨模态進行多目标學習,保證同模态判别性的同時,實作跨模态特征的對齊,線下實驗驗證和業務評測驗證了本文算法有效性。本文對文本-視訊跨模态檢索技術的研究主要通過文本和視訊全局特征建構雙塔度量模型,後續會繼續深耕:
- 探索文本-視訊的特征細粒度對齊,解構視訊多模态特征,實作不同模态特征與文本的解耦對齊。
- 探索文本-視訊特征度量學習,實作精度更細的局部度量。
參考文獻
[1] 讓機器讀懂視訊,淘寶短視訊超大規模标簽了解
[2] 短視訊全屏頁的認知了解和運用
[3] 多模态内容的表達學習及應用
[4] 多模态表征學習在短視訊推薦場景上的應用探索
[5] PAI-EasyMM: 通用多模态學習架構
[6] 多模态學習在誇克圖搜中的應用
[7] 跨模态檢索初探-躺平搜尋首圖挑選
[8] 基于多模語義相關性的智能短視訊封圖挑選
[9] Lee K H, Chen X, Hua G, et al. Stacked cross attention for image-text matching[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 201-216.
[10] Wen K, Gu X, Cheng Q. Learning Dual Semantic Relations with Graph Attention for Image-Text Matching[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020.
[11] Liu Y, Wan B, Zhu X, et al. Learning cross-modal context graph for visual grounding[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 11645-11652.
[12] Gu J, Cai J, Joty S R, et al. Look, imagine and match: Improving textual-visual cross-modal retrieval with generative models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7181-7189.
[13] Tan H, Bansal M. Lxmert: Learning cross-modality encoder representations from transformers[J]. arXiv preprint arXiv:1908.07490, 2019.
[14] Chen Y C, Li L, Yu L, et al. Uniter: Universal image-text representation learning[C]//European Conference on Computer Vision. Springer, Cham, 2020: 104-120.
[15] Hamilton W L, Ying R, Leskovec J. Inductive representation learning on large graphs[J]. arXiv preprint arXiv:1706.02216, 2017.
[16] Chen T, Deng J, Luo J. Adaptive Offline Quintuplet Loss for Image-Text Matching[C]//European Conference on Computer Vision. Springer, Cham, 2020: 549-565.
[17] Faghri F, Fleet D J, Kiros J R, et al. Vse++: Improving visual-semantic embeddings with hard negatives[J]. arXiv preprint arXiv:1707.05612, 2017.
[18] Zhang Y, Lu H. Deep cross-modal projection learning for image-text matching[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 686-701.
[19] Huang Y, Wu Q, Song C, et al. Learning semantic concepts and order for image and sentence matching[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6163-6171.
[20] Song Y, Soleymani M. Polysemous visual-semantic embedding for cross-modal retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 1979-1988.