1.2 例子
了解強化學習的一個好方法是考慮一些指導其發展的示例和可能的應用。
- 大師級國際象棋選手采取行動。通過考慮可能的落子和反擊這種計劃來做出選擇,以及對特定位置和落子的可取性采取果斷的直接的判斷。
- 自适應控制器實時調整煉油廠操作的參數。控制器在此基礎上優化産量/成本/品質權衡指定的邊際成本,而不是嚴格遵守最初工程師建議的設定點。
- 一隻瞪羚小牛出生後幾分鐘就掙紮着。 半小時後呢?它以每小時20英裡的速度奔跑。
- 移動機器人決定是否應該進入新房間以尋找和收集更多垃圾或開始嘗試找回其電池充電站的路。根據電池的目前充電水準和速度做出決定,它很容易就能找到過去的充電器位置。
- 菲爾準備他的早餐。仔細檢查,即使這個看似平凡的活動也揭示了一個複雜的條件行為網和互鎖目标關系:走到櫥櫃,打開它,選擇一個麥片盒,然後伸手去拿,抓住并取回盒子。再通過其他一系列複雜的,調整的,互動的,必須的行為來獲得碗,勺子和牛奶壺。每個步驟都涉及一系列眼球運動,以擷取資訊到達大腦并指導和協調肢體動作。菲爾對于如何攜帶物品,或者在獲得其他物品之前将它們中的一些運送到餐桌上是否更好的,在不停地進行快速判斷。每個步驟都以目标為指導,例如抓勺子或到達冰箱,并且服務于其他目标,例如一旦準備好谷物并且最終可以獲得營養,那麼菲爾拿起勺子就吃。無論他是否意識到這一點,菲爾都在擷取有關他身體狀況的資訊,這些資訊決定了他的營養需求,饑餓程度和食物偏好。
這些示例共享的功能非常基本,很容易被忽略。 所有涉及主動決策的智能體與其環境之間的互相作用,智能體在其中尋求實作目标,盡管其環境存在不确定性。允許智能體的行為影響未來的環境狀态(例如,下一個國際象棋位置,煉油廠的水庫水準,機器人的下一個位置以及其電池的未來充電水準),進而影響那些以後提供給智能體可用的選項和機會。 正确的選擇需要考慮到行動的間接延遲後果,是以可能需要預見或規劃。
同時,在所有這些例子中,行動的影響無法完全預測; 是以,智能體必須經常監控其環境并做出适當的反應。例如,菲爾必須觀察他倒入谷物碗中的牛奶以防止溢出。所有這些例子都涉及明确的目标,即智能體可以根據其直接感覺的内容來判斷其目标的進展。國際象棋選手知道他是否獲勝,煉油廠控制員知道生産了多少石油,瞪羚小牛知道它奔跑時何時落下,移動機器人知道它的電池何時耗盡,菲爾知道他是否正在享用他的早餐。
在所有這些示例中,智能體可以使用其經驗來改善其表現。随着時間的推移。國際象棋選手改進了他用來評估位置的直覺,進而改善了他的發揮; 瞪羚小牛提高了它的奔跑效率; 菲爾學會精簡他的早餐。智能體在開始時為任務帶來的知識,無論是從以前的相關任務經驗,還是通過設計或演變建構到任務中,對于有用或易于學習的内容都是有影響的。但是,對于調整行為以利用任務的特定功能來說,與環境的互動至關重要。