首次曝光！線上視訊衣物精确檢索技術，開啟刷劇敗明星同款時代

cvpr是由全球最大的非營利專業技術學會ieee（電氣和電子工程師協會）舉辦的計算機視覺領域的國際頂會，2017cvpr收到超過2500篇論文投遞，最終收錄不到800篇，阿裡巴巴集團idst和ai lab 有多篇論文被收錄。

今天為大家深入解讀被cvpr 2017收錄的論文之一、來自阿裡巴巴idst 視訊分析團隊的《從視訊到電商：視訊衣物精确檢索》。

《從視訊到電商：視訊衣物精确檢索》圍繞視訊電商業務場景，提出了一個線上視訊衣物精确檢索系統。該系統能夠滿足使用者在觀看影視劇時想要同時購買明星同款的需求。

整個系統采用了目前最先進的衣物檢測和跟蹤技術。針對明星同款檢索中存在的多角度、多場景、遮擋等問題，提出可變化的深度樹形結構（reconfigurabledeep tree structure）利用多幀之間的相似比對解決單一幀檢索存在的遮擋、模糊等問題。該結構可以認為是對現有attention模型的一種擴充，可以用來解決多模型融合問題。

論文技術在天貓魔盒視訊中應用

業務場景及研究問題：視訊電商中的衣物精确比對

早在2014年，阿裡與優酷洋芋釋出視訊電商戰略，稱未來可以實作邊看邊買，使得視訊電商的概念，繼微網誌電商，朋友圈電商之後浮出水面。電商平台擁有少量商品，而視訊網站具有巨大的流量，二者結合是發展的必然結果。電商平台可以借助視訊網站的流量來實作導流和平台下沉，而視訊網站則需要通過廣告點選和商品成交來實作流量變現，是以二者的結合可謂一拍即合。

視訊電商的商業主旨是打造以視訊為入口的購物服務，視訊中出現所有物體都可能是商品，提供包括邊看邊買、明星同款、廣告投放等服務，它集娛樂、休閑、購物于一體，給使用者構造出一種“身臨其境”情境營銷，或者是明星同款的沖動式消費。視訊電商目前已經不是停留在概念層次了，視訊網站向電商的導流轉化也一直在不斷的嘗試中。

影視劇中的服飾存在較大的差異性和異構性，同一個目标往往展現出較大的差異。服飾購物圖像通常具有雜亂、多樣的背景，而且常在戶外拍攝。多樣化的背景可能是建築物，街道、風景、汽車等多種情況。由于自然場景下受到光線、角度、大小、分辨率、幾何學和光度學的變化等影響，使得服飾呈現出現的外形極為複雜，即使是同一件服飾也會出現變化較大的效果。

同時線上網站為更好地展示服飾的效果，通常聘請時尚模特穿着所售商品，模特/人物姿勢變化也是導緻服飾變化的一個重要因素。由于以上這些因素，使得視訊明星同款搜尋成為了一個極具挑戰性的技術問題。

網絡結構及技術細節

asymnet網絡結構：整個asymnet深度神經網絡結構如圖1所示。當使用者通過機頂盒（天貓魔盒）觀看視訊時，該網絡将從電商網站（淘寶、天貓）檢索到與之比對的衣服，并推薦給使用者。

為忽略複雜背景對檢索結果的影響，更準确的進行服裝定位，我們首先應用服飾檢測技術，提取得到服飾區域一組候選框。然後對這些候選框進行跟蹤，得到明星同款在視訊中的的運動軌迹。對于衣物候選區域和運動軌迹我們分别利用用圖像特征網絡（ifn）和視訊特征網絡（vfn）進行特征學習。

考慮到服裝的運動軌迹，衣物精确檢索問題被定義為不對稱（多對單）比對問題，我們提出可變化的深度樹形結（reconfigurable deep tree structure），利用多幀之間的相似比對解決單一幀檢索存在的遮擋、模糊等問題。後續本文将詳細介紹模型的各個部分。

圖 1 asymnet深度神經網絡結構

圖像特征網絡（ifn）：傳統cnn網絡要求輸入圖像為固定的227x227（因為cnn網絡中的卷積層需要有一個确定的預定義的次元）。在視訊電商業務場景中，因為衣物檢測候選框為任意大小，尺度變化很大，傳統cnn網絡無法進行有效的特征學習。

針對這一問題，我們利用空間金字塔池化結構（spp）體系結構，如圖2所示。它通過空間池聚合最後一個卷積層的特征，進而使池區域的大小與輸入的大小無關。

圖 2 asymnet圖像特征網絡（ifn）

視訊特征網絡 (vfn)：為了更好的考慮視訊的空間序列模式，進一步提高衣物檢索的性能。基于 lstm，我們提出了視訊特征網絡 (vfn)，如圖3所示。其中實驗驗證明兩層堆疊式 lstm 結構能夠在視訊特征學習中得到最佳性能。

圖 3 asymnet視訊特征網絡(vfn)

相似性網絡：明星同款比對不同于近似衣物檢索，精确比對要求完全一緻。在完全一緻的要求下，傳統的通過相似性計算來進行檢索的方法，不能滿足明星同款精确比對要求。已有的方法通常将精确比對問題轉換為一個二分類問題，但這種方式适應性差，隻能利用單一時刻的視訊幀。

為了能夠利用整個衣物運動軌迹，我們提出了如下的可變化的深度樹形結構（reconfigurabledeep tree structure）将比對問題轉換為邏輯回歸問題。比對網絡拟采用基于混合專家系統的邏輯回歸網絡。該結構可以認為是對現有attention模型的一種擴充，可以用來解決多模型融合問題。

圖 4 asymnet相似性網絡

整個模型的目标函數是綜合考慮每一幀的比對結果，得到基于整個衣物運動序列和電商衣物的相似性，整個系統可以模組化為對如下目标公式進行求解：

類似于attention機制，我們提出如下後驗機率模型，來對上式進行求解：

得到如下梯度并采用端到端方式進行網絡學習。

試驗結果：我們利用業務資料和最新的衣物檢索方法進行了對比，試驗結果如下表所示。相對于alexnet，asymnet在前20的檢索精确率名額上，其性能幾乎提高了進一倍。

相對于其他2種網絡cs和rc，我們發現rc的性能略優于cs，因為rc具有較強的識别能力差異較小（采用多任務學習）。甚至在對于某些類别（無明顯差别）rc在精确率上甚至略好于asymnet，但是總的來說asymnet比目前現有的方法擁有更好的性能。因為asymnet可以處理現有的視訊的時空動态變化，并結合自動視訊幀的自動調節爐排判别資訊的融合政策。

首次曝光！線上視訊衣物精确檢索技術，開啟刷劇敗明星同款時代

繼續閱讀

Android-opencv之CVCamera

基于ORB特征點比對的對極幾何限制實作（源碼+講解）

使用hector構圖_如何使用均衡的構圖拍攝更清晰的照片

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

K-近鄰算法以及圖像分類應用

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡