天天看點

一種基于圖檔搜尋視訊的方案

作者:京東雲

作者:京東零售 谷偉

1.商品搜尋

1.1網絡購物的搜尋手段

随着移動網際網路發展,手機端購物已成為人們生活的常态。人們在搜尋商品時采用的手段也越來越豐富,目前的主要搜尋方式是文本搜尋與拍照搜尋。

1.2文本搜尋

文本搜尋應用比較廣泛,較為常用的是關鍵字比對,針對商品資訊的相關描述進行分詞,并對分詞建立索引庫,進而達到查找的目的。随着人工智能的發展,語義搜尋得到了快速的發展,它通過使用者輸入的搜尋内容來了解使用者真正的意圖,進而獲得更有價值的内容。其本質是将所有要搜尋的内容轉化為高維數學向量,用統一的特征向量來描述不同内容,把檢索輸入的内容向量化,并與要搜尋的内容進行向量比對,把相似度最高的結果展現出來。

1.3拍照搜尋

拍照搜尋也就是以圖搜圖,是近幾年的視覺AI發展的一個産物。使用者登入電商平台,可以通過上傳圖檔,經過圖像分析與識别來查找相似的商品主圖,進而找出相關的商品。其基本原理是經圖像分析抽取圖像的顔色、形狀、紋理等特征,建立特征索引庫,對使用者上傳的圖像進行特征化描述,從索引庫中查找出與之近似的特征圖像。

2. 現狀分析

2.1需要專業人員參與

文本搜尋需要文本描述的支援,也就是需要對短視訊進行文本描述,需要人員對短視訊進行準确的文本描述,尤其描述中要含有代表其商品的關鍵詞,否則可能難以被搜尋引擎所命中,這對視訊的釋出人員産生了一定的門檻,增加搜尋命中的難度。

拍照搜尋主要是對商品的主圖進行特征比對,這也就需要商品釋出人員要制作盡可能與之比對的圖檔,尤其需要美工設計人員的參與,進而增加了人力成本。

2.2難以支援短視訊搜尋

随着近幾年自媒體的發展,短視訊逐漸成為網際網路資訊傳播的主要手段。而短視訊可以認為是大量圖檔的集合,不可能對短視訊的每張圖檔建立特征索引,因為這會浪費大量的計算機算力。

3. 技術方案

3.1 技術問題

以前商品介紹主要以圖文方式來展現商品,不僅要展示商品主圖還要配細節圖,以及産品參數,進而達到全面涵蓋産品資訊的能力。而短視訊能夠全方位的展示商品,并搭配語言描述以及背景音樂,可進一步形象的給消費者介紹商品的功能,給顧客更直覺的體驗,有助于促進下單。同時商家制作的短視訊可将其推送到自媒體平台上,便于給商品引流,提高商品銷量,進而拓寬了銷售市場。

是以短視訊營銷相對于圖文營銷更有優勢,如何讓顧客能夠更快更便捷地搜尋到其感興趣的商品短視訊,是本發明所要解決的主要問題。本方案主要解決的是商品短視訊搜尋,按照類目次元對商品短視訊進行篩選,并提高視訊搜尋的命中率,為商品短視訊搜尋建立橋梁。

3.2 技術方案

3.2.1 流程圖

流程圖:

一種基于圖檔搜尋視訊的方案

3.2.2 較長的描述

1.關鍵幀提取

賣家在制作好商品介紹的短視訊後,在釋出商品時對短視訊進行上傳,視訊時長不能超過2分鐘。對該視訊進行關鍵幀提取。視訊是由一組連續的圖像組成,如果每張圖檔都存儲下來,則會導緻視訊檔案過大,是以視訊都會被壓縮,在壓縮過程中,産生了I幀、P幀、B幀。I幀是畫面的完整儲存,它盡可能去除了圖像空間的備援資訊;P幀則是記錄與前一個關鍵幀的差别;B幀是記錄本幀與上一幀和下一幀的差别。

是以隻需提取出I幀即可。在MPEG-4标準中,stss部分辨別了哪些sample是關鍵幀,如果沒有stss則全部sample是關鍵幀。當擷取的關鍵幀太多時,以時間軸次元,随機選取20幀的圖像供商家選擇,把商家選取的5張圖檔與視訊檔案一同儲存到檔案資料庫中。

Mp4标準

Box類型 說明
ftyp 檔案類型
moov 記錄媒體資訊
mvhd 視訊檔案資訊,如時長、建立時間等
track 存放視訊的容器
tkhd 媒體總體資訊,如寬高等
mdia 媒體容器
mdhd 換算真實事件
hdlr 媒體類型,指明是video、audio、hint
minf 媒體資訊容器
stbl 偏移映射關系表
stsd sample描述
stts 時戳-sample序号映射表
stsc sample與chunk的映射表
stsz sample的大小
stz2 另一種存儲sample的大小,更節省空間
stss 關鍵幀清單(從該處獲得I幀)
stco 每個chunk的偏移
co64 64位chunk的偏移
mdat 具體的媒體資料

2.特征向量計算

本次的特征向量計算采用的是VGG16模型。由于關鍵幀的圖檔都是彩色圖檔,是以采用3通道。卷積核為3×3,池化核為2×2。以224×224的視訊圖像為例,過程如下:

  1. 輸入圖像大小為224×224×3,經64個通道的卷積核3×3,步長為1,共卷積2次,輸出尺寸為224×224×64的特征向量。進行池化,采用池化核2×2,步長為2,輸出尺寸為112×112×64的特征向量。
  2. 經128個3×3的卷積核,步長為1,卷積2次,尺寸變為112×112×128,進行池化,步長為2,輸出尺寸為56×56×128。
  3. 經256個3×3的卷積核,步長為1,卷積3次,尺寸變為56×56×256,進行池化,步長為2,輸出尺寸為28×28×256。
  4. 經512個3×3的卷積核,步長為1,卷積3次,尺寸變為28×28×512,進行池化,步長為2,輸出尺寸為14×14×256。
  5. 經512個3×3的卷積核,步長為1,卷積3次,尺寸變為14×14×512,進行池化,步長為2,輸出尺寸為7×7×256。
  6. 将資料拉平成一維數組,7×7×256=25088。
  7. 經兩層1×1×4096與一層1×1×1000的全連接配接層,最終輸出1×1000的特征向量。
一種基于圖檔搜尋視訊的方案

3.向量資料庫

向量在存儲時要把檔案資料庫中的ID同時存下來,以及商品ID,進而建立向量、檔案、商品的關系。向量搜尋都是相似性搜尋,通過兩個向量在高位空間的距離來做判斷,其實就是在高維空間中找到與目标向量最接近的K個向量,一般采用歐式距離計算,其公式:

一種基于圖檔搜尋視訊的方案

為了召回精度高,暴力搜尋的是最好的選擇。但這會産生大量的不必要的計算,浪費了計算機資源。是以本方案采用類目次元進行切割。減少搜尋範圍。

4.視訊搜尋

買家需要選擇要搜尋的類目再進行圖檔上傳,通過VGG16模型計算出特征向量,然後基于類目次元進行暴力搜尋把最接近的K個向量篩選出來。最後再根據向量與檔案的關系,把視訊檔案查找出來,傳回給買家。

5.視訊淘汰政策

每日進行定時巡檢,對于長時間沒有流量或者流量低于門檻值的商品,需要從向量庫中對其短視訊進行邏輯删除,盡可能減少搜尋的體積,減少計算資源的浪費。

一種基于圖檔搜尋視訊的方案

繼續閱讀