作者 | 趙斌強(樂田)

場景化導購
2012 年市場上開始出現導購,主要以單品形式做個性化推薦。雖然現在來看是非常普通的,但在 2012、2013 年是非常新的方式。随後在内容導購方面嘗試新的突破,主要以圖文、短視訊、直播作為導購的載體。
随着 3D 技術日漸成熟,3D 自動了解、自動創作和渲染技術可以進一步把實體世界和虛拟世界結合起來,形成新的使用者場景。我們開發了一個新的導購産品——躺平,大家可以在淘寶的搜尋框搜尋「躺平」,來體驗 3D 場景化導購的初步效果。(躺平是淘寶近期釋出的覆寫大家居行業生産供給、設計生态、設計師工具、場景化導購平台。)
為什麼說 3D 導購值得關注?讓我們先回到内容導購場景中,我們拍一些圖檔,在上面編輯文字,或者錄制視訊,這些是通常的做法。文字是一維的,圖檔是二維的,視訊增加了時間維。而 3D 是三維的,和我們生活的實體世界更加一緻。
3D場景生成
通過 3D 技術把産品形态更新一個次元,極有可能發展新的商業機會。讓我們重新回到導購場景。在傳統的線下場景,顧客通過導購員的介紹,看到櫥窗商品,會産生買欲望。與之類似,線上使用者對線上的商品作為單品感覺,相比商場導購的體驗要單薄很多。是以我們需要給使用者打造一個場景,讓使用者在場景裡去了解這個商品,并推薦更多的相關産品。這樣使用者的感覺會有更豐富的層次。
比如使用者對一個桌子感興趣,當看到桌上擺放的茶壺等物品,就把使用者帶入了一個場景中。或許使用者也對這些東西感興趣,對需求不再是單點的激發方式,而是通過網狀、多角度的激發方式,激發出使用者更多的需求,這就是導購的價值。
在導購中,3D 能解決什麼問題?首先能想到的是尺寸大小和視覺問題。使用者總會關心商品的尺寸問題和視覺問題。從尺寸和視覺來看,使用者對 3D 肯定是有需求的。使用者購買服裝需要尺寸和視覺體驗,即使是标準化的東西冰箱、洗衣機也都需要 3D 來感覺商品。
買什麼商品對尺寸有要求?比如我們去買家具可能需要到線下,會去家裝商城看顔色、風格、尺寸是否比對,有味沒味道。現在這些在 3D 裡通過虛拟化技術都可以實作,所見即所得。也可以和 AR 結合,形成更流暢的使用者體驗。
從可實作性來說,模拟一個人穿上衣服的感覺是有很大的難度的,電影大制作那種做視訊動畫,用設計師去畫,成本非常高,不可能用這樣的成本去支援 3D 導購項目。我們選擇的場景一定是在内容制作方面技術更為成熟的,在落地上是比較可控的,家裝行業是一個不錯的選擇。
導購最重要的是兩個部分,一個性化,二是内容的生産。以抖音為例,它核心的創新之一就是可以讓使用者以簡單的操作去生成高品質的内容。對我們來說,通過機器自動生成海量導購内容,然後用個性化推薦技術形成精準的需求比對。
3D場景内容優化
為了生成場景,首先要有一套搭配算法。我們通過算法搭配,結合設計師的知識圖譜,把兩個東西結合起來,形成高品質的搭配結果。設計師的專業輸入怎樣在算法中流暢豐富地表達?是其中一個很值得研究的問題。
通過搭配專家的支援,結合機器學到的模型,我們就可以在一個大的3D商品模型池中生成内容。用搭配的結果在3D場景背景中布局,布局之後渲染,再把商品的錨點打到上面,使用者就可以通過點選這些錨點去購物。生成的3D場景化内容,可以在推薦流或搜尋場景中為使用者透出。
按照之前的項目經驗,隻是站在大資料或從推薦角度來說,搭配是很難做的事情,準确性是一個難以逾越的鴻溝。在更加豐富和龐大的資料中,我們怎麼做?雖然我們有使用者資料,但使用者資料并不是萬能的,還需要結合其他資料,才能把搭配做精準。在這個過程中,我們引入了 3 種主要的資料。
- 第一是使用者行為:使用者買了什麼,購買過程中的先後順序,挑選過程,都可以在應用行為展現。這個資料量很大,缺點是噪聲也很大。使用者并不會沿着設計的邏輯去購買商品,而是根據實際需求,而實際需求有非常複雜的背景,難以精确模組化。
- 第二是設計師作品:具有一定藝術價值,通過設計師作品可以提升我們的設計感,而不僅僅是功能設計。設計師資料的缺點是資料量比較小,優點是精度很高,且有美學價值。
- 第三是使用公開搭配圖檔公開資料集,抓一些搭配圖檔,在圖檔上提取搭配資訊。
在以上資料的基礎上,綜合使用可解釋性的邏輯和和深度學習技術建構算法。可解釋性中很關鍵的是提取語義标簽,包括品類、風格,顔色等。此外在視覺方面提取隐式特征向量,最後用深度學習模組化,将形成整個算法方案。
風格非常重要。大家平時看到的很多現代、簡約風,但在整個家居市場中有很多風格,風格彼此之間是不能亂搭配的,比如把美式和歐式、簡約搭配在一起是不可以的。
為了精準地提取風格,需要有一套方法,從零到一,沒人告訴我們家居是什麼風格的,要把這個體系建起來。用資料結合算法、人工輸入,逐漸豐富标簽體系。甚至必要的情況下還會擴充一些細化的标簽,這裡會有人和機器結合的循環過程。
以上圖為例,看上去像櫃子一樣的這件家具,有很多表示風格的元素,但這個元素必須要由機器學習的方法抓出來,這裡有很多細節上的工作。
直接在 3D 上提取風格非常複雜,而 2D 圖像積累了很多成熟的技術。先把 3D 模型從不同視角渲染成圖檔,預測這個圖所表示出來的到底是什麼風格。然而風格在細微之處,并不僅僅在一個整體上,也就是整體不能完全反映出商品的風格。在細微之處需要引入 Attention 機制。我們可以觀察這這些 Attention 出現在能表明商品風格的地方,比如說這個家居底下的腿型,還有頂部的裝飾,這些最能反映它的風格。相應的,我們通過多個 Attention 部分比對的方式建立出對應的網絡。
為什麼一定要用多個部分的風格特征來比對,而不采用一個部分來比對?在很多部分上分别進行比對,統計上彼此校驗增強,才能提取出準确的風格标簽。
有了這個風格之後,最後生成搭配。這是一個類似于推薦技術的過程,先粗選再細選。搭配是一個疊代的過程,上圖分别是候選模型和已選模型,逐漸評估候選模型中的商品,并将合适的候選商品選入已選商品集合中。
涉及到視覺方面,深度學習是标配。通過一個輕量級的網絡提取出相應的視覺特征,針對目前商品提取 attention 特征,形成精準的搭配品質評分模型。
整體上看,搭配是比較困難的,不僅要相似,還要有一定的差別。什麼和什麼搭,這裡面既要有相似,又要有互補的關系,而互補關系需要引入新的資訊視角。
有了搭配結果後,進入到下一個步驟——布局。在布局之前要有一個空間把這個東西布上,這個空間需要展現場景的美感和品味,不能把這個搭配布在特别土的地方。這個空間就是背景,描述的是某一種場景,比如開會的會場,生活背景、自然背景等等。
根據這些搭配的結果,我們去算出這些配件的空間關系,這個關系要有彈性,不能硬碰硬。為了形成更柔韌的布局能力,通過一個機率圖組合搭配的邏輯,生成一個關系的機率。算法提供了給卧室、用餐區、廚房等場景的布局能力。
布局的關鍵是舒适度,看到布局結構會不會讓人感覺到舒服,要做舒适度分析。舒适度分析需要機器學習技術,我們甚至還引入了 GPU 去優化它的舒适度分析的結果。
在 3D 轉換到 2D 圖檔方面,我們在構圖的時候要選擇取景的視角。有正對的視角、側對的視角,總有更适合場景的視角。再加上一些規則防止選的空間過于深、空曠或擁擠,在視覺上看上去比較舒适,都和我們後面的效果評估有很大關系。
上圖是通過我們搭配出來的結果,可以看到場景不能隻幹巴巴的放一張桌子、椅子,還要有一些表示場景本身的物件,這些物件更為小型,比如花、小筆記本。這些東西視覺上也能點綴場景,也對場景也有說明作用。我們會把小物件擺放在上面,形成最終的搭配結果。
布局完成以後最後會産出一張 2D 圖檔,上圖是 3D 場景直接生成的。最後一步視覺體驗的關鍵——光,可以對比一下,同樣的場景,左圖是沒有自動布光的,右圖是通過優化布光的算法,視覺上右邊看起來比左邊更漂亮一些。
建立在海量内容基礎上的導購,最終決定一個内容品質的還是使用者的行為回報。生成一個内容,内容經過投放以後,會産生點選率,通過點選率判斷使用者感不感興趣,有的專家認為漂亮、很有用,但使用者也許會有不同的看法,我們必須依靠使用者的回報來判斷這個内容的價值。
在投放一段時間後,知道不同内容的點選率是什麼,通過模型可以知道這個内容好不好。比如一個新的内容出來後,如果點選率比較低使用者不接受就需要淘汰這個内容,點選率比較高則會選入到庫裡。
我們生成内容的豐富度還是很高的,辦公桌、飯廳、卧室、會議室、吧台,這些東西都可以生成。
總結
3D 和機器學習結合還是比較新的話題, 3D 場景生成、 3D 搭配推薦、機器學習、深度學習這些子產品已經都涉及到了。
順帶指出,3D 模組化是非常關鍵的,它是第一環。在這上面的 3D 搭配緊随其後。目前3D 搜尋還沒有涉及, AR、VR、MR 也有想象空間。這些工業界亟待解決的問題,也給科研工作提供了很多有啟發價值的廣闊場景。
淘系技術部依托淘系豐富的業務形态和海量的使用者資料,我們持續以技術驅動産品和商業創新,不斷探索和衍生颠覆型網際網路新技術,以更加智能、友好、普惠的科技深度重塑産業和使用者體驗,打造新商業。邀請你的加入:[email protected]