天天看點

圖像搜尋與識别背後的故事

2019杭州雲栖大會大師零距離大咖有約,達摩院進階算法專家淵捷帶來以“看圖時代:圖像搜尋與識别技術的疊代”為題的演講。本文以拍立淘為例對大規模圖像搜尋和識别技術以及在圖像搜尋中的應用進行了詳細的描述,另外,還對圖像的實拍圖比對和海量資料這兩大挑戰的解決方案進行了闡述。

視訊直播回顧

以下為精彩視訊内容整理:

阿裡巴巴數字生态系統

圖像搜尋與識别背後的故事

在阿裡巴巴的整個生态系統中,包括電商、數字娛樂、物流、本地服務中,無時無刻都在産生着大量的資料。借助阿裡雲這個大規模平台,以及這個平台上先進的AI相關技術,可以對這些大資料進行一個實時的處理,進而可以不斷的提升商品的價值和使用者的使用形态,以及能夠不斷的創造使用者的價值。

接下來以電商領域中的拍立淘AI産品為例,對看圖時代的圖像搜尋與識别技術的疊代進行分享和介紹。

拍立淘

圖像搜尋與識别背後的故事

首先介紹一下拍立淘是什麼,拍立淘是一項基于深度學習以圖搜圖的圖像系統,包括圖像的搜尋與識别。拍立淘包含阿裡巴巴所有商品的圖像資料,而且一個商品可能有多個圖像。目前拍立淘可以通過手機打開淘寶,然後點選右上角攝像的圖示進入。拍立淘每天有2000萬的使用者進行通路,這些使用者會将他們想要搜尋的圖檔放到拍立淘進行搜尋。

為什麼需要圖像搜尋

圖像搜尋與識别背後的故事

為什麼需要圖像搜尋呢?由于傳統的搜尋都是基于文字進行搜尋的,而在電商領域有許多非标準的商品,例如衣服、鞋子、包、挂飾很難通過文字精準的描述出來是什麼。比如想要搜尋圖中的包,用文字搜尋就是輸入“紅色的真皮手提包”,可以看到搜出來的東西和自己想要的并不一樣,總會有很多的差别。但是用以圖搜圖的形式進行搜尋的話,就可以精準的描述商品,同樣可以精準的搜尋出自己想要的商品。

應用場景

以下是以圖搜圖的幾種比較典型的場景:

圖像搜尋與識别背後的故事

場景一:第一個場景是街拍場景,比如說在街上看到别人穿的衣服,想要買同款,就可以拍下來進行搜尋購物了。

圖像搜尋與識别背後的故事

場景二:第二個場景是網絡爆款場景,比如說看到微信朋友圈、微網誌有很多人分享這個商品,如果想要買同樣的商品,就可以通過拍立淘進行搜尋和比價。

圖像搜尋與識别背後的故事

場景三:第三個場景是海淘場景,當我們在海外時,可能碰到好多不認識的牌子,這樣就可以通過拍立淘進行拍照搜尋擷取資訊。

拍立淘發展曆程

圖像搜尋與識别背後的故事

拍立淘是從2014年開始上線的,到現在已經有五年的曆程了。最開始拍立淘要解決的是識别圖像難的問題。随着使用者的需求和時間的推進,拍立淘團隊為了能夠不斷的疊代線上的效果,開始不斷的擴大資料規模,以及擴大引擎容量。同時,團隊也不斷地對使用者回報資料和可點選資料進行挖掘,用以提高整個系統的響應速度。

接下來講一下為什麼需要對圖像進行識别,對于搜尋而言,其實是不能了解使用者傳的圖像是什麼,隻能找出相近的圖像。但是如果有了識别能力,那麼就可以告訴計算機是什麼,進而搜尋到對應的商品。

拍立淘支援的類目

圖像搜尋與識别背後的故事

這是拍立淘的類目,類目包括服飾類、包類、鞋類、裝飾類等等,在淘寶上成交比較多的類目就是服飾類。

拍立淘效果展示

為了比較清晰的展示算法能力,接下來對拍立淘效果展示示例進行詳細介紹。

圖像搜尋與識别背後的故事

示例一:示例一是一個連衣裙執行個體,拍立淘能夠對不是正面拍出的連衣裙圖像進行識别,進而得出連衣裙圖像的類目。

圖像搜尋與識别背後的故事

示例二:示例二是一個包的執行個體,很明顯這個包的圖像是倒着拍的,傳統的算法很難識别出是包,但是基于深度學習的算法就能夠解決這個難題。

圖像搜尋與識别背後的故事

示例三:示例三是一個不均勻光照的鞋子圖像,通過算法也可以找到同款。

圖像搜尋與識别背後的故事

示例四:在示例四這種情況下,我們并不難找出同款,我們這個有很強的語義資訊和表達能力,能夠容易的找到相似的款式。

圖像搜尋與識别背後的故事

示例五:示例五是一個海淘的示例,算法能夠比較準确的對帶有标簽的保健品、藥品等商品進行識别。

以圖搜圖流程

圖像搜尋與識别背後的故事

接下來講一下拍立淘以圖搜圖的流程,其實對一個搜尋而言,都會有一個線上和離線的搜尋過程。離線就是把候選的圖像建立一個資料庫,然後進行一個入庫和删除的操作,當一個離線的圖像要進庫時,首先要做一個離線的檢測,因為有可能圖像中既有衣服又有眼鏡,如果檢測到是衣服,那麼接着就需要對衣服進行一個特征提取,特征提取會将圖像資料轉換成一系列的數字,接着将兩個圖像之間進行一個計算,內插補點越小,代表兩張圖越相似。

挑戰一:實拍圖比對

圖像搜尋與識别背後的故事

怎麼進行實拍圖比對呢?商品的圖像搜尋會有兩種圖檔,其中離線的是比較高品質的圖像,因為離線的圖像都是模特在攝影棚裡用高端的相機拍的,可以看到商家的圖像都是高品質精美的圖檔。但是使用者所拍的上傳的圖像會出現很多低品質的圖檔,是以說識别圖像比對是一個需要解決的關鍵性問題。

Deep ranking

圖像搜尋與識别背後的故事

為了解決圖像比對的問題,采用了深度學習中的Deep ranking方法。若想要将一個識别搜尋或者其它AI系統做到極緻,首先需要大量的資料,而這些資料可以通過使用者的互動行為來獲得。例如使用者上傳了一個圖像,經過系統檢測後系統會回報給使用者一些圖像,使用者點選的圖像會比沒點選的圖像相似度要高,我們就可以拿這個資料作為特征訓練的監督的資訊。接着把使用者上傳的圖像和使用者點選的一個圖像還有使用者沒有點選的一個圖像一起傳送到共享CNN網絡中,然後經過多層的特征提取,就可以得到資料特征的資料,這就是所謂的訓練的基本架構。但這個架構有一個緻命的問題,因為我們一個樣本涉及到三幅圖,導緻計算量是很大的,針對于此,研發了一種大規模資料分布式訓練。

大資料分布式訓練

圖像搜尋與識别背後的故事

在大規模分布式訓練中,資料的運作模式中需要N個機器,每個機器中都含有資料,每個機器中獨立的資料經過CNN網絡的特征提取後,會把所有的特征彙集到一台總機器上,這樣做的好處就是能夠更多的構造副樣本,并且它們之間可以共享,這樣就可以更高效的運用資料,進而提高運算速度。

虛拟ID

圖像搜尋與識别背後的故事

訓練過程中看不到全部圖像,隻能看到局部圖像的問題,是以導緻訓練效率比較低的問題。針對這個問題提出了虛拟ID訓練,虛拟ID訓練會給圖像标注一個虛拟label,然後以label作為分類監督的資訊,接着把CNN網絡中的響應拿出來進行比較。使用者在點選商品的兩個圖時,我們會認為這兩個圖像在某種程度上是有一定的相似度。是以,讓手機使用者點選所有的圖像時形成一個編碼,然後把圖像的label做一個聚類。這個訓練不僅速度比上文中的大資料分布式訓練速度提升十倍以上,而且訓練效果能達到90%以上。

挑戰二:海量資料

圖像搜尋與識别背後的故事

圖像搜尋與識别技術的第二個挑戰就是海量資料的挑戰,拍立淘有高達30億的圖檔,對圖檔逐一對比是做不到的,是以需要對這些向量引擎進行聚類操作,聚類操作會産生聚類标碼,若标碼一緻就搜尋,标碼不一緻不搜尋。

圖像搜尋雲産品

圖像搜尋與識别背後的故事

除了拍立淘是手機淘寶的應用,同樣在去年2月份還釋出了圖像搜尋的雲産品。同時,在海外還有了第一個客戶THE ICONIC,它是一個賣包、鞋子的網站。

紡織圖像搜尋

圖像搜尋與識别背後的故事

除了商品搜尋,也把圖像搜尋擴充到了其它領域,例如紡織圖像搜尋。

萬物識别

圖像搜尋與識别背後的故事

圖像搜尋并不能讓計算機知道是什麼,要想讓計算機知道是什麼,就還需要對圖像進行識别,這就需要算法做支撐,在拍立淘上已經能夠對車、寵物等進行搜尋與識别,也就意味着萬物識别已經在路上。

繼續閱讀