中國人工智能學會通訊——個性化推薦和資源配置設定在金融和經濟中的應用 1.2 智能金融·個性化推薦

2021-11-10 17:01:27

第一類是關于個性化推薦的情況。我們剛才已經看到過的，有理财産品或者是金融類新聞的每天推送的情況。我們知道，對于不同的使用者來說，可能關注點是不一樣的，甚至有時使用者自己都不知道，自己的風險承受能力怎樣，自己到底希望要一個怎樣的預期年化收益率。但是我們依然希望通過觀察使用者的點選曆史，慢慢地學到使用者潛在的一些特性參數。這是一個（像剛才夢迪提到的）增強學習的過程，其中需要處理所謂的Exploration Exploitation Tradeoff：要在推薦一些确定知道适合該使用者的，以及推薦一些相對未知但可能更适合一些新的（理财産品）這兩者之間找到恰當的平衡。

再有一些其他的場景，比如說金融類的新聞推薦的時候就會遇到一些更麻煩的問題。新聞由于其本身的特性，更新得特别快，推送一個過時的新聞是沒有意義的。另外在移動端，推薦顯示的一般是一個新聞清單，這樣就會有一個回報非常少的問題。比如說我第1屏推20個，不是這20個所有的回報我都能拿到。我可能看到的是使用者點選了第2個、第6個，但是第6個之後發生了什麼事情就完全不知道了，可能第7、8個新聞使用者看了标題不感興趣是以就沒點，也可能看完第6個就關掉app了，第7、8個根本連标題都沒有看。這種對清單的推薦和回報資訊會跟以前傳統的情景很不一樣。

有一類辦法能夠一定程度上解決這種冷啟動（cold start），或者是目标的變化非常迅速的情況，就是用強化學習裡Contextual Multi-Armed Bandit的算法。我們去年做的一個結果是，如果你做T次這樣的推薦，平均來看，每一次你離最優解的隻相差1/T；也就是說在對使用者隐藏參數和未來資訊都不确定的情況下，我們的算法仍然會非常接近于最優推薦。

中國人工智能學會通訊——個性化推薦和資源配置設定在金融和經濟中的應用 1.2 智能金融·個性化推薦

稍微講一點這裡的細節。我們這裡的模型是說，假設你有一個可以執行的Action的集合，在每一輪時這個Action的集合可以比如根據來的使用者不同而不一樣。這個Action就是一個你要推薦的有序清單（ordered list）。當使用者看到這個清單以後，就會從前往下一個一個去檢查，然後會在一個地方停止了，而不再檢查後面的項目。這裡并不知道在哪裡停止了，我們能拿到的回報隻是使用者在哪裡點選過了。

有時在其他場景中有不隻點選的回報，比如App推薦，你會看到使用者下載下傳行為；電商的産品推薦，你會看到使用者購買行為；不一樣的場景會有不同的回報。但是無論那種回報，我們看到以後需要根據這些資訊，來決定下一步怎樣做。我們用後悔度（Regret）來衡量算法的有效性：在整個的T輪推薦裡面，我們算法的行為，和如果我們知道是以隐含參數的情況下應該選擇的最優行為之間的差别。我們沒有辦法展開很多的細節，隻能說我們的結果是在T輪中，我們的Regret可以控制在T這麼大。後來，我們又進行了一系列的延伸，能夠處理多個點選的情況，非線性點選率期望的情況和結合使用者間相似度的方法等。

中國人工智能學會通訊——個性化推薦和資源配置設定在金融和經濟中的應用 1.2 智能金融·個性化推薦

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希