天天看點

讓機器讀懂視訊:億級淘寶視訊背後的多模态AI算法揭秘

讓機器讀懂視訊:億級淘寶視訊背後的多模态AI算法揭秘

背景

随着 4G 的普及和 5G 的推出,内容消費的訴求越來越受到人們的重視。2019 年網際網路趨勢報告指出在移動網際網路行業整體增速放緩的大背景下,短視訊行業異軍突起,成為“行業黑洞”搶奪使用者時間,盡管移動網際網路人口紅利見頂,新的增長點難以尋覓,但中國短視訊人均使用時長及頭部短視訊平台日均活躍使用者均持續增常(如圖 1 所示)。

讓機器讀懂視訊:億級淘寶視訊背後的多模态AI算法揭秘

圖一

在淘寶,短視訊業務一直以來都是非常重要的業務,是淘寶 app 從單一的商品導購 app 走向商品導購+内容消費的多元化app的關鍵所在。相較于單一的商品導購,商品導購+内容消費的模式有效增加使用者粘性,提高使用者的停留時長,最終獲得 GMV 的持續增長。不僅如此,2019 年視訊營銷發展趨勢白皮書指出目前視訊内容的轉發量已達到圖文的 12 倍,視訊營銷已經成為品牌最愛的營銷方式,使用視訊營銷比不使用視訊營銷收入增長速度快 49%,且從搜尋獲得的網站流量多 41%。

現如今淘寶每年新增内容數達數十億,其中視訊數占比持續提升,預計到 2022 年視訊的占比會超過 50%。如何對規模如此龐大的視訊進行内容化了解,高效賦能視訊營運和個性化分發變得極為關鍵。

視訊類目體系

視訊内容化了解的首要問題是建構一個完備的、階層化的類目體系,相比于傳統的淘寶商品類目體系,視訊類目體系需要解決兩大問題。

  • 一是提高營運的精細化能力,提供内容的盤貨和定向生産、以及快速搭建會場的能力;
  • 二是針對新生産的視訊提供冷啟動能力,提升分發的效率。

雖然淘寶的商品類目體系可以部分代替視訊類目體系的功能,但會導緻短視訊業務的使用者心智和商品導購業務同質化,是以建構一套屬于短視訊業務自己的視訊類目體系已經迫在眉睫。有了建構完成的視訊類目體系,另外一個更重要的問題是産出高效的視訊分類算法,用于對海量的視訊進行标簽生成。為了獲得好的點選效果,視訊生産者往往會采用吸引眼球的封面圖或者标題,但是和視訊本身的内容關聯性很弱。此外,淘寶的視訊天然和商品有強關聯性,如何利用好商品的資訊也非常關鍵。

不同于抖音美拍等其他視訊的内容體系從新聞、科技、金融等領域做分類劃分,淘寶的視訊類目體系從商品導購、産品功能展示、商品知識擷取等角度出發,由行業經驗豐富的營運進行設計,包含了 30+ 一級類目和 150+ 二級類目,其中一級類目是對視訊的領域的劃分,例如服飾/家居日用/美食/萌寵等,二級類目是在一級類目的基礎之上對視訊的子領域的劃分,例如一級類目服飾下的熟女穿搭/少女穿搭/兒童服飾/中老年穿搭等,圖 2 是視訊類目體系的幾個案例。

在這個體系之上多媒體算法團隊投入近半年的時間提出了基于模态注意力機制的多模态分層視訊分類算法。

讓機器讀懂視訊:億級淘寶視訊背後的多模态AI算法揭秘

圖二

多模态分層視訊分類算法

視訊分類的難點

多模态:淘寶短視訊的資訊是非常豐富的,有視訊/封面圖/文本/音頻/商品等模态,分别刻畫了短視訊不同次元的資訊,這些資訊的展示形式都是非結構化的,如何将非結構化的資訊轉化成結構化的特征是一大難點。不同模态的資訊在不同的視訊中對類别的貢獻度也是不一樣的,小部分視訊通過标題就可以簡單地推測出類别,但大部分視訊的标題有效資訊過少,需要兼顧其他模态資訊才能推測出類别,是以在算法的訓練中如何協同不同模态的特征,達到不同模态特征互補的效果又是另一個難點。

階層化label:單獨使用二級類目的 label 雖然也可以進行算法的訓練,但是無法使算法達到最優的效果,因為不同一級類目下面的二級類目之間的差距是遠大于同一個一級類目下面的二級類目之間的差距的,單獨使用二級類目的 label 無法學習到這個資訊。是以如何在算法的訓練中充分利用一級類目+二級類目的階層化 label 同樣是一個難點。

模态資訊缺失:淘寶視訊包含多種不同的模态資訊,然而這些視訊不一定包含全部的模态資訊,有些視訊沒有外挂商品,有些視訊沒有對應的視訊标題或者摘要,還有的視訊沒有封面圖。如何讓算法能夠自适應模态缺失的情況也是一個難點。

多模态分層視訊分類算法架構圖

針對建立高效準确的視訊分類算法的迫切需求,解決視訊分類中存在的諸多挑戰,我們提出了基于模态注意力機制的多模态分層視訊分類算法,算法總體架構如圖 3 所示。算法的核心主要分為 3 個部分:

  1. 預訓練模型的選擇,
  2. 模态融合方法的設計,
  3. 多目标的分類器的設計。
讓機器讀懂視訊:億級淘寶視訊背後的多模态AI算法揭秘

**圖三

**

預訓練模型的選擇

随着硬體水準的提高以及大規模的預訓練資料集的推出,遷移學習在深度學習任務中扮演的角色越來越重要。尤其是在缺乏訓練資料的情況下,使用預訓練模型進行遷移學習能夠加速 loss 收斂并顯著提升下遊任務的準确率。

(1) 視覺模态:視訊和封面圖共同構成了視覺模态資訊,視訊是視訊内容的主體,包含了主要的内容資訊,封面圖是視訊内容的精華,兩者可以互相補充。在VGG16、Inception 系列模型、ResNet等經典的圖像分類模型中,我們選擇了 Inception-Resnet v2[1] 作為視覺特征提取的模型。

這個模型是 2016 年 Google 推出的大規模圖像分類模型,既具有 Inception 系列模型的優勢,能夠通過堆疊不同的 Inception Block 增加網絡的寬度提高算法的準确率,還加入了 Resnet 的殘差學習單元(如圖4所示),殘差學習單元的輸出由多個卷積層級聯的輸出和輸入元素間相加,能夠緩解網絡退化的問題,增加深度網絡的層數,有效提高視覺特征的的泛化性。

視訊特征序列相較于普通的圖像特征包含了更加豐富的資訊,不同特征之間具有時序相關性。我們采用 NetVLAD (如圖3所示)作為視訊特征的聚合網絡。NetVLAD 常出現在近幾年國内外視訊分類大賽的 top 方案中,以 CNN 的網絡結構實作 VLAD 算法,構成了新生成的 VLAD 層, VLAD 算法(如公式1所示)統計的是特征x和其相應的聚類中心c的殘差和,a 決定 c 是否是特征 x 距離最近的聚類中心。相比于 Average Pooling,NetVLAD[2] 可以通過聚類中心将視訊序列特征轉化為多個視訊鏡頭特征,然後通過可以學習的權重對多個視訊鏡頭權重求和獲得全局特征向量。

讓機器讀懂視訊:億級淘寶視訊背後的多模态AI算法揭秘

公式 1

(2) 音頻模态:淘寶視訊中包含大量的教程類視訊,這些視訊内容的關鍵資訊通過音頻表現出來,是以在淘寶視訊分類中音頻模态至關重要。我們首先從淘寶視訊中分離音頻信号,通過計算 MFCC 特征将音頻信号轉換為圖像輸入,然後使用 VGGish [3]提取音頻特征序列。音頻特征序列與視訊特征序列類似,使用 NetVLAD 提取不同鏡頭對應的音頻特征,然後通過可學習的權重融合生成音頻模态的全局特征向量。

(3)文本模态:視訊内容中的文本包含了視訊标題和視訊摘要,是視訊描述内容的大緻概括,對視訊分類起到指導性的作用。文本模态,我們使用 Bert 模型生成視訊标題和視訊摘要的全局特征向量。Bert 是 18 年 Google 推出的大規模文本預訓練模型,可謂是 nlp 領域大力出奇迹的代表,Bert用 12 層的 transformer encoder 将 nlp 任務的 benchmark 提高了一大截。相較于普通的 word2vec ,經過海量文本預訓練的 Bert 能夠在視訊分類算法中引入更多的遷移知識,提供更精準的文本特征。

(4) 商品模态:商品模态是淘寶視訊差別于站外視訊的标志,是展現我們的視訊分類算法優勢的關鍵所在。我們沿用文本模态的 Bert 模型生成商品模态的全局特征向量。商品模态在推薦領域常用 item_id lookup 到商品的 embedding 矩陣再接入下遊網絡,然而我們的視訊分類算法是離線學習的,對于新發現的 item_id 不能很迅速地獲得它的 embedding 特征,是以我們使用 Bert 模型提取商品的标題和類目名稱的文本特征,作為商品模态的全局特征向量。

讓機器讀懂視訊:億級淘寶視訊背後的多模态AI算法揭秘

圖四

模态融合方法的設計

淘寶視訊的多模态資訊十分豐富,不同模态之間提供的資訊内容并不是完全一緻的。如何設計優秀的多模态特征融合方法,充分利用非結構化的多模态資訊,将不同模态間的特征對齊到同一特征空間,使得不同模态資訊之間取長補短,這是視訊分類算法模型中最關鍵的子產品。我們比較了多種不同的多模态特征融合方法,實驗結果如圖表格 1 所示。

(1) TFN 和 LMF (如圖 5 所示)都是将多模态特征映射到不同模态間外積的高維特征空間進行特征融合。TFN[6]通過模态之間的外積計算不同模态的元素之間的相關性,但會極大的增加特征向量的次元,造成模型過大,難以訓練。而 LMF [7]是 TFN 的等價形式,利用低秩矩陣的分解,将原本的各模态間的先外積再全連接配接變換過程,等價為各個模态先單獨線性變換到輸出次元,之後多個次元點積,可以看作是多個低秩向量的結果的和,LMF 相比 TFN 減少了很多參數量,是 TFN 的優化版本。

但在視訊分類的算法中,這 2 種方法的效果都不及預期,分析原因在于視訊分類的模态特征長度都在千維左右,即使是 LMF 也會出現參數數量爆炸的情況,為了保證參數量不爆炸就必須先将每個模态特征降維,然而降維本身是有損的,導緻降維後的模态特征再外積不如直接利用不同模态間特征拼接。

讓機器讀懂視訊:億級淘寶視訊背後的多模态AI算法揭秘

圖五

(2) 淘寶視訊不同模态之間資訊通常是不一緻的,這些不一緻的模态資訊之間有些内容和類别标簽息息相關,有些内容則相關性較低。為了關注那些與類别标簽相關性更高的模态資訊,降低對于不重要模态資訊的關注程度,我們提出了基于 Modal Attention 的多模态特征融合方法。Modal Attention 基于融合的特征向量預測一個模态個數次元的基于多模态聯合特征的對于不同模态的重要性分布機率,這個模态分布機率與多模态融合特征做點積,得到對于不同模态特征重要性重新權重過後的新的多模态融合特征。從表格 1 可以看出,基于 Modal Attention 的多模态特征融合方法的準确率顯著超過了 TFN 和 LMF,驗證了基于 Modal Attention 的多模态特征融合方法的優勢。

(3) 為了應對淘寶視訊中出現的模态缺失情況,我們使用了 modal 級别的 dropout,在訓練的時候以一定比例随機性去除某個模态資訊,增加模型對于模态缺失的魯棒性。在不添加 modal dropout 時,測試資料如果缺失10%的模态資訊,測試精度會下降 3.5% 左右;在添加了 modal dropout 後,測試集精度下降不到 0.5%,幾乎可以忽略。同時添加 modal dropout 後,就算模态資訊不缺失的情況下,還能夠提升測試集精度,提高約 0.4%。

讓機器讀懂視訊:億級淘寶視訊背後的多模态AI算法揭秘

表格一

▐ 階層化的分類器的設計

一般來說,分類任務隻有單一的分類目标,然而,淘寶視訊的标簽體系是一種結構化的分層分類任務,同時具有一級類目和二級類目,一級類目和二級類目之間有依存關系,構成了一種樹狀的分類體系結構,例如:二級類目的熟女穿搭、少女穿搭、男士休閑等都屬于一級類目的服飾類。針對這個任務,我們提出了分層多标簽分類器(HMC)。

(1) 我們将 HMC 分類器與非常經典的 MLP 分類器做對比。MLP 分類器直接預測淘寶視訊的二級類目标簽,然後根據一二級類目之間的對應關系獲得一級類目标簽。 HMC 分類器同時建構了一二級類目各自的分類通道,能夠同時預測一二級類目标簽,結構圖如圖 2 所示。這種分類器相比于 MLP,能夠隐形的學習一二級類目的依賴關系,能夠互相促進,提高分類精度,表格 1 的實驗結果證明了這一點。

(2) 基于 HMC 分類器,我們添加了基于類别不比對的多目标損失函數,具體公式見公式 2。損失函數 L由三部分構成,分别是一級類目損失 L1,二級類目損失 L2,以及一二級類别不比對損失 LH。一級類目損失和二級類目損失是一二級類目的交叉熵損失,能夠使得網絡同時學習到多模态特征與一二級類目的條件機率分布,同時能夠隐形的學習到一二級類目之間的依賴關系。

然而,僅僅使用一二級類目損失無法保證一二級類目之間的依賴關系,為了緩解這個問題,我們加入了類别不比對損失,用于懲罰一二級類目不比對的情況。參數 λ 用來控制一級類目損失和二級類目損失之間的重要性相對程度,因為二級類目數量更多,學習更加困難,需要添加更大的權重去學習。參數 β 用來調節類别不比對損失對于總體損失函數的重要性。添加類别不比對損失之後,一二級類目不比對的情況大幅度下降,同時分類準确率也獲得了提升。

讓機器讀懂視訊:億級淘寶視訊背後的多模态AI算法揭秘

公式二

總結

Google AI 掌門人Jeff Dean在 NeurIPS 舉辦期間指出在 2020 年多模态學習将會有很大的發展,能夠解決更多單模态無法解決的問題。我們提出的基于模态注意力機制的多模态分層視訊分類算法方案為淘寶的視訊内容化了解奠定了堅實的基礎,為淘寶視訊的精細化營運能力和冷啟動能力做出了應有的貢獻。與此同時,我們的方案還根據業務需求提供了無成本的可擴充能力,不僅能夠助力圖文内容化了解,提升圖文的了解深度,同時還能通過精細的視訊向量化表達來解決相似視訊召回、視訊抄襲檢測的問題。

基于模态注意力機制的多模态分層視訊分類算法方案為淘寶的視訊内容化了解開了一個好頭,後續我們還會在視訊内容化了解的領域内繼續耕耘。目前我們正在嘗試更細粒度的多模态視訊标簽算法,力圖将目前的 2 級視訊類目體系推向 2 級視訊類目 + 多級視訊标簽的體系,通過視訊類目 + 視訊标簽的組合形式持續提升淘寶視訊的精細化營運能力和冷啟動能力。在多模态技術上,我們會繼續關注如何更高效地進行模态融合,嘗試将預訓練技術引入多模态中,通過誤差重建的方法讓多個模态互相學習,提升模态融合的能力。

讓機器讀懂視訊:億級淘寶視訊背後的多模态AI算法揭秘

原文連結:

https://mp.weixin.qq.com/s/zsq2kD5xkss7P2v2WUTRQw

作者:曉何、元年、有鄰

繼續閱讀