天天看點

【幹貨】3萬字剖析強化學習在電商環境下應用

随着搜尋技術的持續發展,我們已經逐漸意識到監督學習算法在搜尋場景的局限性:

搜尋場景中,隻有被目前投放政策排到前面的商品,才會獲得曝光機會,進而形成監督學習的正負樣本,而曝光出來的商品,隻占總的召回商品中的很小一部分,訓練樣本是高度受目前模型的 bias 影響的。

監督學習的損失函數,和業務關注的名額之間,存在着不一緻性。

使用者的搜尋、點選、購買行為,是一個連續的序列決策過程,監督模型無法對這個過程進行模組化,無法優化長期累積獎賞。

與此同時,強化學習的深度學習化,以及以 Atari 遊戲和圍棋遊戲為代表的應用在近幾年得到了空前的發展,使得我們開始着眼于這項古老而又時尚的技術,并以此為一條重要的技術發展路線,陸陸續續地在多個業務和場景,進行了強化學習模組化,取得了一些初步成果,相關的工作已經在整理發表中。同時我們也深知,目前強化學習的算法理論上限和工業界中大規模噪聲資料之間,還存在着很大的 gap,需要有更多的智慧去填補。

基于強化學習的實時搜尋排序調控

淘寶的搜尋引擎涉及對上億商品的毫秒級處理響應,而淘寶的使用者不僅數量巨大,其行為特點以及對商品的偏好也具有豐富性和多樣性。

是以,要讓搜尋引擎對不同特點的使用者作出針對性的排序,并以此帶動搜尋引導的成交提升,是一個極具挑戰性的問題。傳統的 Learning to Rank(LTR)方法主要是在商品次元進行學習,根據商品的點選、成交資料構造學習樣本,回歸出排序權重。

盡管 Contextual LTR 方法可以根據使用者的上下文資訊對不同的使用者給出不同的排序結果,但它沒有考慮到使用者搜尋商品是一個連續的過程。這一連續過程的不同階段之間不是孤立的,而是有着緊密的聯系。換句話說,使用者最終選擇購買或不夠買商品,不是由某一次排序所決定,而是一連串搜尋排序的結果。

【幹貨】3萬字剖析強化學習在電商環境下應用

圖1:搜尋的序列決策模型

【幹貨】3萬字剖析強化學習在電商環境下應用

圖2:強化學習agent和環境互動

本文接下來的内容将對淘寶具體的方案進行詳細介紹。

強化學習為何有用?——延遲獎賞在搜尋排序場景中的作用分析

我們用強化學習(Reinforcement Learning,RL)在搜尋場景中進行了許多的嘗試,例如:對商品排序政策進行動态調節、控制個性化展示比例、控制價格 T 變換等。

雖然從順序決策的角度來講,強化學習在這些場景中的應用是合理的,但我們并沒有回答一些根本性的問題,比如:

在搜尋場景中采用強化學習和采用多臂老虎機有什麼本質差別?

從整體上優化累積收益和分别獨立優化每個決策步驟的即時收益有什麼差别?

每當有同行問到這些問題時,我們總是無法給出讓人信服的回答。因為我們還沒思考清楚一個重要的問題,即:在搜尋場景的順序決策過程中,任意決策點的決策與後續所能得到的結果之間的關聯性有多大?

從強化學習的角度講,也就是後續結果要以多大的比例進行回傳,以視為對先前決策的延遲激勵。也就是說我們要搞清楚延遲回報在搜尋場景中的作用。

本文将以繼續以搜尋場景下調節商品排序政策為例,對這個問題展開探讨。

本文餘下部分的将組織如下:

第二節對搜尋排序問題的模組化進行回顧。

第三節将介紹最近的線上資料分析結果。

第四節将對搜尋排序問題進行形式化定義。

第五節和第六節分别進行理論分析和實驗分析并得出結論。

基于強化學習分層流量調控

今天的淘寶俨然已經成為了一個規模不小的經濟體,是以,社會經濟學裡面讨論的問題,在我們這幾乎無不例外的出現了。早期的淘寶多數是通過效率優先的方式去優化商品展示的模式,進而産生了給消費者最初的刻闆印象:低價爆款,這在當時是有一定的曆史局限性而産生的結果,但肯定不是我們長期希望看到的情形。

因為社會大環境在變化,人們的消費意識也在變化,如果我們不能同步跟上,甚至是超前布局的話,就有可能被競争對手趕上,錯失良機。是以有了我們近幾年對品牌的經營,以至于現在再搜尋 “連衣裙” 這樣的詞,也很難看到 9 塊 9 包郵的商品,而這個在 3 年之前仍然很常見。

而這裡的品牌和客單等因素,是通過一系列的計劃經濟手段來進行幹預的,類似于上文福利經濟學第二定理中的禀賦配置設定,依據的是全局的的觀察和思考,很難而且也不可能通過一個局部的封閉系統(例如搜尋的排序優化器)來實作。

是以,越來越多的營運和産品同學,鑒于以上的思考,提出了很多幹預的分層,這裡的分層指的是商品 / 商家類型的劃分,可以從不同的次元來劃分,比如,按照對平台重要性将天貓商家劃分成 A、B、C 和 D 類商家;按照品牌影響力将商品劃分為高調性和普通商品;按照價格将商品劃分為高端、中等、低端商品等。

【幹貨】3萬字剖析強化學習在電商環境下應用

局部最優和全局最優

而早期的算法同學對這些可能也不夠重視,一個經典的做法即簡單權重,這通常往往會帶來效率上的損失,是以結果大多也是不了了之。但當我們認真審視這個問題的時候,我們其實可以預料,損失是必然的,因為一個純粹的市場競争會在目前的供需關系下逐漸優化,達到一個局部最優,是以一旦這個局部最優點被一個大的擾動打破,其打破的瞬間必然是有效率損失的,但是其之後是有機會達到比之前的穩定點更優的地方。

虛拟淘寶(聯合研究項目)

在某些場景下中應用強化學習 (例如圍棋遊戲中的 AlphaGo), 進行政策探索的成本是非常低的。而在電商場景下, 政策探索的成本會比較昂貴, 一次政策評估可能需要一天并且差的政策往往對應着經濟損失, 這是線上應用強化學習遇到的一個普遍問題, 限制了強化學習在真實場景下的應用。

【幹貨】3萬字剖析強化學習在電商環境下應用

真實淘寶和虛拟淘寶

針對這個問題, 我們和強化學習方面的知名專家, 南京大學機器學習與資料挖掘研究所的俞揚副教授進行了深度合作, 通過逆向模組化環境, 嘗試建構了一個 “淘寶模拟器”, 在該模拟器上, 政策探索的幾乎沒有成本, 并且可以快速進行政策評估。而且在這樣一個模拟器上, 不僅可以對各種 RL 算法進行離線嘗試, 而且還可以進行各種生态模拟實驗, 輔助戰略性決策。

【幹貨】3萬字剖析強化學習在電商環境下應用

多智能體逆強化學習

參與人員:阿裡巴巴 搜尋事業部 - AI 技術及應用:胡裕靖、詹宇森、潘春香、笪慶、曾安祥

虛拟淘寶合作方 南京大學:侍競成、陳士勇、俞揚(副教授)

這四篇文章,結合淘寶的實踐經驗,用了近三萬字深度剖析了強化學習在電商環境下的若幹應用與研究!

原文釋出時間為:2018-01-09

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”微信公衆号

繼續閱讀