天天看點

阿裡巴巴淘系開源首個多模态直播服飾檢索資料集什麼是 Watch and Buy?為什麼需要 Watch and Buy?淘寶直播商品識别大賽簡介

阿裡巴巴淘系技術部與北京大學前沿計算研究中心CVDA實驗室、英國愛丁堡大學等合作,正式開源業界首個大規模的多模态直播服飾檢索資料集(Watch and Buy),以推動視訊多模态檢索技術的研究。此前,依托該資料集舉辦的第一屆淘寶直播商品識别大賽完美落幕,近2000支隊伍參加了比賽,湧現了一批檢索創新技術,有效提升淘寶直播場景中服飾檢索的效果,形成了一定的學術和工業影響力。

什麼是 Watch and Buy?

直播帶貨是淘寶連接配接商品和消費者的重要方式,通過對直播視訊中商品進行實時識别和推薦,可實作消費者邊看邊買的消費體驗,有效提高商品購買的轉化,有非常大的經濟價值。通常情況下直播對應的數百款商品之間相似程度高,且直播畫面中存在大量的背景幹擾、燈光變化、商品遮擋和形變等,給直播畫面中商品的比對識别帶來很大的技術挑戰。

阿裡巴巴淘系開源首個多模态直播服飾檢索資料集什麼是 Watch and Buy?為什麼需要 Watch and Buy?淘寶直播商品識别大賽簡介

淘寶直播“邊看邊買”效果示例,借助PixelAI 商品識别算法,可以從該直播的商品庫中識别出直播中主播講解的商品,并在直播中通過商品卡片形式推薦給消費者。

為了提升直播中商品比對識别的效果,我們依托淘寶直播海量資料,建構了業界最大規模的多模态視訊商品檢索資料集Watch and Buy (WAB)。

該資料集包含70,000個由直播視訊片段和對應講解商品構成的比對對,具有規模大、标注全、模态多、功能廣的特點。

我們抽取視訊片段若幹關鍵幀和商品的全部商品圖進行了執行個體框級标注,商品id數達82,173個,标注圖像數達1,042,178張,檢測框執行個體1,654,780個。

框級标注資訊豐富多樣,包括商品的檢測框、類别、視角、展示方式、同款編号等。除了視覺标注,我們還對主播講解語音進行了人工文本轉錄,同時提供了商品的标題文本資訊。該資料集可用于物體檢測的算法、商品重識别算法、主播意圖識别、跨模态檢索和多模态檢索等多種算法的研究。

阿裡巴巴淘系開源首個多模态直播服飾檢索資料集什麼是 Watch and Buy?為什麼需要 Watch and Buy?淘寶直播商品識别大賽簡介

為什麼需要 Watch and Buy?

目前開源的服飾檢索資料集都存在一些不足,無法滿足真實視訊場景中服飾實時識别的應用和細緻研究。

首先,已有開源資料集均為靜态圖檔的資料集,而真實視訊直播場景中還存着運動模糊、遮擋等問題;通過針對視訊場景的資料集能夠有效對上述問題進行研究和解決。

其次,已有開源資料集的圖檔多為網上收集,數目少、噪聲大且标注次元不全,我們依托淘寶網和淘寶直播的真實業務場景,能夠擷取大規模、高品質和全面的商品資訊。

最後,現有資料集多為單一的圖檔資料集,我們還提供了主播語音翻譯文本、商品圖示題文本等多模态的資訊,進行多模态商品檢索的研究,能夠更加貼近真實場景。

我們相信 Watch and Buy 資料集的這些特性将會持續激發視訊多模态檢索領域的技術創新研究。

淘寶直播商品識别大賽簡介

阿裡巴巴淘系開源首個多模态直播服飾檢索資料集什麼是 Watch and Buy?為什麼需要 Watch and Buy?淘寶直播商品識别大賽簡介

為了友善學術界廣泛參與,我們将業務問題抽象為視訊庫和商品庫之間的多模态視覺檢索問題。在評價名額上,提出了片段級、幀級和檢測框級評價标準,全面衡量選手算法效果。

為了保證選手算法既能快速疊代又能有效賦能線上真實業務,我們在初賽、複賽和決賽的賽題中逐漸引導選手從技術貼近業務,其中,初賽為萬級視訊片段的檢索問題,複賽則加入了真實場景中存在的商品缺失問題,決賽則是将選手方案部署到真實線上場景,直接評價完整直播視訊的算法效果。

大賽由淘系技術部内容社互動動平台和天池競賽平台共同舉辦, 釋出了業界最豐富的7W規模多模态視訊檢索資料集,用于進行算法模型的訓練和效果評測,并且提供了24W的比賽獎金獎勵優秀參賽者,考慮到疫情期間高校參賽者的資源困難,**額外提供了GPU機器進行模型線上訓練,最終吸引到1945支隊伍參賽。

**

選手來源中,30%的隊伍來自高校,26%來自公司,個人參賽有6%。選手學曆分布為,40%的選手擁有碩士學曆,24%的選手為大學,博士選手占6%。最終,來自中科院計算所和吉林大學的逐星團隊以超越Baseline方案20%的成績奪得本次比賽的冠軍,另外多位來自高校的參賽同學表示已經在資料集上進行算法研究,并保持于主辦方密切聯系。

淘系技術的算法同學對優秀方案吸納并補充到淘寶直播線上場景中,實作更好服務于淘寶直播商品識别業務。

淘系技術部—多媒體算法團隊

我們依托淘系數十億級的視訊資料和千億級商品資料,有豐富的業務場景和技術方向。我們着眼于淘寶直播和短視訊,着手打造集團統一的視訊内容了解架構,對圖像&視訊的生産、智能稽核、大規模檢索、高效率分發提供全鍊路的賦能。我們持續以技術驅動産品和商品創新,不斷探索和衍生颠覆型網際網路新技術。歡迎機器學習、視覺算法、音視訊通信、端側智能等領域全球頂尖專業人才加入,讓科技引領面來未來的商業創新和進步。

請投遞履歷至郵箱:[email protected]

附錄:

淘寶直播商品識别大賽 Watch and Buy資料集開源

關注「淘系技術」微信公衆号,一個有溫度有内容的技術社群~

阿裡巴巴淘系開源首個多模态直播服飾檢索資料集什麼是 Watch and Buy?為什麼需要 Watch and Buy?淘寶直播商品識别大賽簡介

繼續閱讀