《Scala機器學習》一一2.3　探索與利用問題

2021-11-09 21:31:01

2.3　探索與利用問題

探索（exploration）與利用（exploitation）的應用很廣，從資金配置設定到研究自動駕駛汽車項目都在使用，但它最初也是源于賭博問題。該問題的經典形式是一個多臂賭博機（老虎機）問題，即假設有一個或多個手臂的賭博機，按次序以未知機率來拉動每個手臂，以此來表示獨立同分布的回報。在這種簡化模型中不斷獨立地重複。假設多個手臂間的回報是獨立的。其目标是最大化回報（比如赢錢的金額），同時還要最小化學習成本（即在小于最優獲勝率的情況下拉動手臂的次數）。假設已經給定了一個手臂選擇政策，顯然需要在尋找一個能得到最優回報的手臂與利用已知最好手臂之間做出權衡。

在實踐中最常用的政策是政策，這種政策選擇最優的手臂的機率是（1―），而選擇另一個手臂機率為。這種方法可能會在那些根本不帶來回報的手臂上花費大量的資源。ucb政策優化了政策，通過預估最大回報的手臂，然後再加上回報估計的某些标準偏差。這個方法需要在每一輪中再次計算最佳手臂，并且需要近似估計均值和标準偏差。另外，ucb必須在每輪中重新計算估計值，這可能會帶來擴充性問題。

最後來介紹thompson采樣政策。它使用一個固定的随機采樣，該采樣服從-伯努利後驗估計，并且賦給下一個能給出最小期望後悔（regret）的手臂。這種資料可以避免參數重新計算。盡管需要假設具體的數，但下圖仍對這些模型的性能進行了有效比較：

圖2-4　當k＝5時，單臂老虎機和不同政策的情形下，對采用不同研究-利用政策的模拟結果

探索和利用模型對初始條件和異常值非常敏感，特别是在低響應的情形下。這已經在基本卡死的臂上進行過了大量的試驗。

另一種增強的政策是基于額外的資訊（如位置）來估計更好的先驗，或者根據這些額外的資訊限制手臂集，以便探索k。但這些會涉及更專業的領域（如個性化或線上廣告）。

《Scala機器學習》一一2.3　探索與利用問題

繼續閱讀

Android config.gradle

eclipse中安裝scala插件

關于sbt下載下傳速度過慢的問題

國外交友網站開發源碼第十二篇

【YOLO學習筆記】之YOLO初體驗

【Scala謎題】使用占位符

Scala的通路權限控制

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

Scala中的match(模式比對)

《快學Scala》——基礎

《快學scala》第13章練習答案

K-近鄰算法以及圖像分類應用

9.spark Core 進階2--Cashe

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method

《Scala機器學習》一一2.3 探索與利用問題

繼續閱讀

《Scala機器學習》一一2.3　探索與利用問題