天天看點

買家秀視訊标題生成模型 | KDD論文解讀

新零售智能引擎事業群出品

電子商務領域的視訊推薦對于擷取新客戶有着重要作用。例如,許多消費者會在商品評論區上傳視訊已分享他們獨特的購物體驗,這些獨特的商品呈現方式或獨特的商品使用方法可能會吸引潛在買家購買相同或類似的産品。相比于賣家秀視訊(如廣告),買家秀視訊具有數量大和個性化強的優勢,是以,将買家秀視訊推薦給潛在感興趣的消費者可以增強電子商務場景下視訊推薦的有效性。

在這種應用需求下,我們設計了買家秀視訊标題自動生成模型,并從以下資料中抽取、關聯和聚合有用的資訊:1)買家秀視訊本身。視訊以動态圖像的形式展現了買家偏好的商品視覺特征以及拍攝主題;2)買家撰寫的評論。雖然評論有較多的噪聲資訊,不能直接作為視訊标題呈現,但是其内容可能蘊含了買家對産品特點的偏好以及使用體驗。3)關聯商品的屬性資訊。來自商品評論區的買家秀視訊會與一個特定的商品關聯,我們提取了關聯商品的屬性資訊,如中長款(連衣裙),作為輸入。屬性結構化的展現了商品的主要特點。接下來本文将介紹Gavotte的重要組成結構以及主要的實驗和分析。

本文“Comprehensive Information Integration Modeling Framework for Video Titling”已被KDD 2020錄用。

2. Gavotte: Graph based Video Title Generator

2.1 圖表示

首先我們介紹一下Gavotte如何将三種輸入表示成圖結構。

買家秀視訊标題生成模型 | KDD論文解讀
  • 商品視訊資訊:我們首先使用了Landmark Detection技術(Liu et al. 2018)檢測衣服類商品的商品部位特征,每一幀的每一個部位都視為圖節點。我們将同幀的商品部位節點進行全連接配接,不同幀相同部位節點進行全連接配接,這種連接配接方式一方面有利于我們捕捉同幀商品部位間的互動和商品整體風格,另一方面能夠捕捉每一個商品部位跨越時間線的動态變化以及不同視點(pointview)下對商品部位的全面感覺。為了增強空間-時序視覺商品部位圖的時序性和部位特點,我們給每一個節點都加上了位置嵌入(Position Embedding)(Jonas et al. 2017)和類型嵌入(Type Embedding),即最終的節點表征為:
    買家秀視訊标題生成模型 | KDD論文解讀
  • 視訊評論資訊:我們将評論中的每一個詞作為圖節點,并将有文法依賴關系的節點進行連接配接,我們發現相比于時序關系,捕捉評論中和商品有關的語義資訊對生成标題更有價值。
  • 關聯商品的屬性資訊:我們将每一個屬性值(如 白色)作為圖節點,并對所有節點進行全連接配接,屬性間本身沒有時序關系,使用圖模組化可以更好的探索屬性間的特殊互動作用。

2.2 細粒度互動模組化

如上圖所示,細粒度互動模組化對三個異構圖的圖内關系(Intra-Actions in Graph)和圖間關系(Inter-Actions across Graphs)進行了模組化。

  • 圖内關系模組化注重和商品有關的細粒度特征的識别。我們采用了常用而有效的圖神經網絡作為圖内關系模組化的可訓練架構結構,和最原始的圖神經網絡相比,本文對資訊傳播時的根節點和鄰居節點進行了單獨模組化,并采用了自門控機制(Self Gating)。
    買家秀視訊标題生成模型 | KDD論文解讀
  • 圖間關系模組化注重異構圖之間商品有關細粒度特征的關聯和聚合。根據其實際的實體意義,我們将圖間關系模組化子產品稱為全局-局部聚合子產品(Global-Local Aggregation,GLA)。GLA包含全局門控通路(Global Gated Access)和局部注意(Local Attention)兩個子子產品。GLA的輸入為查詢圖(Query Graph)和上下文圖(Context Graph),輸出的聚合圖(Aggregated Graph)的結構與查詢圖一緻。
    買家秀視訊标題生成模型 | KDD論文解讀
  • 全局門控通路用來加強上下文圖中與查詢圖全局相關的資訊(可以視為初步篩選過程),并抑制毫不相關的資訊。
買家秀視訊标題生成模型 | KDD論文解讀
  • 局部注意力機制在局部層面(節點級别)篩選上下文圖中和查詢圖節點相關的内容并聚合到該查詢圖節點上。
    買家秀視訊标題生成模型 | KDD論文解讀

2.3 故事線摘要子產品

故事線摘要模組化關注幀級别和視訊級别的資訊,是以采用幀特征和RNN來進行序列模組化。首先我們利用全局-局部子產品将細粒度資訊和幀資訊進行資訊融合。這是因為我們發現視訊幀模組化(如商品-背景互動)和視訊模組化(如視訊故事主題)和商品的細節特點息息相關。

買家秀視訊标題生成模型 | KDD論文解讀

之後我們采用RNN對視訊幀進行序列模組化。

買家秀視訊标題生成模型 | KDD論文解讀

2.4 解碼器

在解碼器部分我們采用常用的注意力增強的RNN結構(Li et al. 2015),我們在每一步解碼階段都會關注細粒度圖資訊和幀資訊。

買家秀視訊标題生成模型 | KDD論文解讀

2.5 學習目标

我們采用了常用的交叉熵損失進行訓練。

買家秀視訊标題生成模型 | KDD論文解讀

我們發現對于視訊标題的生成,重複詞的出現總是有損視訊标題的整體吸引程度,是以我們參考了文本摘要(See et al. 2017)中常用的注意力覆寫損失,并提出了生成覆寫損失,用以懲罰和抑制重複詞的生成。

買家秀視訊标題生成模型 | KDD論文解讀
買家秀視訊标題生成模型 | KDD論文解讀
買家秀視訊标題生成模型 | KDD論文解讀

3. 實驗和分析

我們摘選了主要的實驗結果

買家秀視訊标題生成模型 | KDD論文解讀

可以看到,我們的模型在兩個淘寶商品資料集(T-VTD服飾類商品資料,和其他商品類别資料)上去得了最佳的效果。我們的模型在T-VTD上提升顯著,在其他商品類别資料上提升會相對弱一些,但這是合理的結果,因為服飾類商品有良好的商品部位定義,我們在其他類别上采用了近似的方法(細節可關注論文)。

買家秀視訊标題生成模型 | KDD論文解讀

該圖展示了Gavotte和其他兩個典型模型(基于RNN的SOTA模型 M-Recnet (Wang et al. 2018),和基于Transformer的SOTA模型 M-Livebot (Ma et al. 2019))的生成案例對比。具體而言,第一個案例中M-Recnet生成标題有意義資訊較少,第二個案例中M-LiveBot生成标題出現未完成和損壞的情況,Gavotte則生成了網絡熱詞(如 出街、搶鏡),生成句子更為流暢,更有吸引力。同時,Gavotte可以識别商品細節級别資訊(如 破洞),商品級别資訊(如 牛仔褲),商品與背景互動資訊(如 出街搶鏡)和視訊級别故事情節資訊(如 這樣穿)。

4. 結果與展望

在這次分享中,我們介紹了買家秀視訊标題生成模型,Gavotte,以為推薦場景下的買家秀視訊自動配上有吸引力的标題。實驗證明Gavotte在生成品質上相比一般性的視訊描述生成方法取得了顯著的提升,并在案例分析中能夠捕捉 商品細節、商品整體、商品-背景互動和視訊故事情節資訊。

5. 參考文獻

Liu, Jingyuan, and Hong Lu. "Deep fashion analysis with feature map upsampling and landmark-driven attention." In Proceedings of the European Conference on Computer Vision (ECCV), pp. 0-0. 2018.

Gehring, Jonas, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. "Convolutional sequence to sequence learning." In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pp. 1243-1252. JMLR. org, 2017.

Yao, Li, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, and Aaron Courville. "Describing videos by exploiting temporal structure." In Proceedings of the IEEE international conference on computer vision, pp. 4507-4515. 2015.

Abigail See, Peter J. Liu, Christopher D. Manning. "Get To The Point: Summarization with Pointer-Generator Networks". ACL (1), pp. 1073-1083. 2017.

Wang, Bairui, Lin Ma, Wei Zhang, and Wei Liu. "Reconstruction network for video captioning." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7622-7631. 2018.

Ma, Shuming, Lei Cui, Damai Dai, Furu Wei, and Xu Sun. "Livebot: Generating live video comments based on visual and textual contexts." In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 6810-6817. 2019. 

更多資料挖掘領域内容請檢視:

《KDD精華論文解讀》

繼續閱讀