天天看點

中國人工智能學會通訊——個性化推薦和資源配置設定在金融和經濟中的應用 1.2 智能金融·個性化推薦

第一類是關于個性化推薦的情況。我們剛才已經看到過的,有理财産品或者是金融類新聞的每天推送的情況。我們知道,對于不同的使用者來說,可能關注點是不一樣的,甚至有時使用者自己都不知道,自己的風險承受能力怎樣,自己到底希望要一個怎樣的預期年化收益率。但是我們依然希望通過觀察使用者的點選曆史,慢慢地學到使用者潛在的一些特性參數。這是一個(像剛才夢迪提到的)增強學習的過程,其中需要處理所謂的Exploration Exploitation Tradeoff:要在推薦一些确定知道适合該使用者的,以及推薦一些相對未知但可能更适合一些新的(理财産品)這兩者之間找到恰當的平衡。

再有一些其他的場景,比如說金融類的新聞推薦的時候就會遇到一些更麻煩的問題。新聞由于其本身的特性,更新得特别快,推送一個過時的新聞是沒有意義的。另外在移動端,推薦顯示的一般是一個新聞清單,這樣就會有一個回報非常少的問題。比如說我第1屏推20個,不是這20個所有的回報我都能拿到。我可能看到的是使用者點選了第2個、第6個,但是第6個之後發生了什麼事情就完全不知道了,可能第7、8個新聞使用者看了标題不感興趣是以就沒點,也可能看完第6個就關掉app了,第7、8個根本連标題都沒有看。這種對清單的推薦和回報資訊會跟以前傳統的情景很不一樣。

有一類辦法能夠一定程度上解決這種冷啟動(cold start),或者是目标的變化非常迅速的情況,就是用強化學習裡Contextual Multi-Armed Bandit的算法。我們去年做的一個結果是,如果你做T次這樣的推薦,平均來看,每一次你離最優解的隻相差1/T;也就是說在對使用者隐藏參數和未來資訊都不确定的情況下,我們的算法仍然會非常接近于最優推薦。

中國人工智能學會通訊——個性化推薦和資源配置設定在金融和經濟中的應用 1.2 智能金融·個性化推薦

稍微講一點這裡的細節。我們這裡的模型是說,假設你有一個可以執行的Action的集合,在每一輪時這個Action的集合可以比如根據來的使用者不同而不一樣。這個Action就是一個你要推薦的有序清單(ordered list)。當使用者看到這個清單以後,就會從前往下一個一個去檢查,然後會在一個地方停止了,而不再檢查後面的項目。這裡并不知道在哪裡停止了,我們能拿到的回報隻是使用者在哪裡點選過了。

中國人工智能學會通訊——個性化推薦和資源配置設定在金融和經濟中的應用 1.2 智能金融·個性化推薦

有時在其他場景中有不隻點選的回報,比如App推薦,你會看到使用者下載下傳行為;電商的産品推薦,你會看到使用者購買行為;不一樣的場景會有不同的回報。但是無論那種回報,我們看到以後需要根據這些資訊,來決定下一步怎樣做。我們用後悔度(Regret)來衡量算法的有效性:在整個的T輪推薦裡面,我們算法的行為,和如果我們知道是以隐含參數的情況下應該選擇的最優行為之間的差别。我們沒有辦法展開很多的細節,隻能說我們的結果是在T輪中,我們的Regret可以控制在T這麼大。後來,我們又進行了一系列的延伸,能夠處理多個點選的情況,非線性點選率期望的情況和結合使用者間相似度的方法等。

繼續閱讀