天天看點

《Scala機器學習》一一2.3 探索與利用問題

2.3 探索與利用問題

探索(exploration)與利用(exploitation)的應用很廣,從資金配置設定到研究自動駕駛汽車項目都在使用,但它最初也是源于賭博問題。該問題的經典形式是一個多臂賭博機(老虎機)問題,即假設有一個或多個手臂的賭博機,按次序以未知機率來拉動每個手臂,以此來表示獨立同分布的回報。在這種簡化模型中不斷獨立地重複。假設多個手臂間的回報是獨立的。其目标是最大化回報(比如赢錢的金額),同時還要最小化學習成本(即在小于最優獲勝率的情況下拉動手臂的次數)。假設已經給定了一個手臂選擇政策,顯然需要在尋找一個能得到最優回報的手臂與利用已知最好手臂之間做出權衡。

《Scala機器學習》一一2.3 探索與利用問題

在實踐中最常用的政策是政策,這種政策選擇最優的手臂的機率是(1―),而選擇另一個手臂機率為。這種方法可能會在那些根本不帶來回報的手臂上花費大量的資源。ucb政策優化了政策,通過預估最大回報的手臂,然後再加上回報估計的某些标準偏差。這個方法需要在每一輪中再次計算最佳手臂,并且需要近似估計均值和标準偏差。另外,ucb必須在每輪中重新計算估計值,這可能會帶來擴充性問題。

最後來介紹thompson采樣政策。它使用一個固定的随機采樣,該采樣服從-伯努利後驗估計,并且賦給下一個能給出最小期望後悔(regret)的手臂。這種資料可以避免參數重新計算。盡管需要假設具體的數,但下圖仍對這些模型的性能進行了有效比較:

《Scala機器學習》一一2.3 探索與利用問題

圖2-4 當k=5時,單臂老虎機和不同政策的情形下,對采用不同研究-利用政策的模拟結果

探索和利用模型對初始條件和異常值非常敏感,特别是在低響應的情形下。這已經在基本卡死的臂上進行過了大量的試驗。

另一種增強的政策是基于額外的資訊(如位置)來估計更好的先驗,或者根據這些額外的資訊限制手臂集,以便探索k。但這些會涉及更專業的領域(如個性化或線上廣告)。