天天看點

算法人生(14):從“探索平衡政策”看“生活工作的平衡之道”

作者:人人都是産品經理
在機器學習的早期階段,探索對于了解環境至關重要,但随着智能體學習的深入,利用已知政策以擷取穩定回報變得更為重要。過多的探索可能導緻錯失最優行動帶來的回報,而過多的利用則可能使智能體陷入局部最優,錯失更好的政策。是以,如何在探索和利用之間找到平衡,是強化學習中的關鍵問題。
算法人生(14):從“探索平衡政策”看“生活工作的平衡之道”

在強化學習中,有一種政策叫“探索平衡政策Exploration-Exploitation Trade-off)”,這種政策的核心是在探索未知領域(以擷取更多資訊)和利用已知資訊(來最大化即時回報)之間尋求平衡,以最大化長期收益(長期的學習和性能優化)。

其中,探索和利用是這樣定義的:

  • 探索(Exploration):指的是智能體嘗試之前未嘗試過的行為,以擷取新資訊和資料,進而發現更有價值的行動政策。探索使智能體能夠擷取新知識,有助于更全面地了解環境。
  • 利用(Exploitation):指的是智能體使用已知的資訊,選擇已知可以帶來最大回報的行為。這是基于已有的知識,盡可能優化目前的性能和結果,進而擷取最大化的短期回報。

通常情況下,探索和利用階段分别會用到以下方法:

一、探索階段

  1. 随機選擇:完全随機地選擇行動,而不考慮過去的經驗或收益。這種方法可以確定探索所有可能的行動。
  2. 貪婪政策:大部分時間選擇目前最佳的已知選項(利用),但以一個小機率ε選擇随機行動(探索)。ε的大小通常在訓練過程中逐漸減小,以逐漸從“探索”轉向“利用”。
  3. Upper Confidence Bound (UCB):選擇具有最大“置信上界”的行動。這種方法考慮了每個選項的潛在最大值,自然地平衡了探索和利用,更适用于需要處理不确定性的情況。
  4. 湯普森抽樣:從後驗分布中随機抽取參數,按照這些參數制定政策,既考慮了探索也考慮了利用。

二、利用階段

  1. 貪婪政策:同探索階段類似,ε的大小通常在訓練過程中會逐漸減小。這種方法簡單直接,在确定環境中效果比較好,因為始終選擇目前估計為最優的行動,但在未知領域可能表現不佳。
  2. 最佳政策追蹤:在已探索和已評估的行動中選擇表現最好的行動,這要求系統有一個良好的評估機制,以準确地衡量各個行動的潛在價值。與貪婪政策側重于“短平快”的特點不同的是,最佳政策追蹤側重于從多個政策中通過持續的評估和調整來找到并實施最優政策,更适用于需要長期決策和适應性更強的環境。
  3. Q學習:它一種無模型的強化學習算法,可以直接從經驗中學習行動的價值函數(Q值),選擇具有最高Q值的行動進行利用。

由以上大家可以看出,“探索平衡政策”可以根據不同的環境和學習任務來選擇不同的“平衡政策”。那我們的日常生活中是否也可以借鑒這個思維,在不同的人生階段采用不同的平衡政策呢?

孩童少年事情,我們更多的要做的是學習新知識,對未知世界事物的好奇心驅使我們不停地“探索”。而成年走入社會之後,過多的探索可能帶來更多的“分心”,缺少“專注”,影響“行走江湖的速度”;但過多的利用,呆在自己的“資訊繭房”中,又可能讓自己缺少多元度來看事物,看不到更多的可能性,也會影響“未來的豐富度”。就像“探索平衡政策”裡說的那樣:過多的探索可能導緻錯失最優行動帶來的回報,而過多的利用則可能使智能體陷入局部最優,錯失更好的政策。如何在探索和利用之間找到平衡,不止是強化學習的挑戰,也是精彩人生的挑戰!

2000多年前,佛陀在教導弟子們如何生活時,提到“保持中道”的思想跟“平衡政策”倒是十分類似。“中道”或“中觀”思想強調避免“極端”,既要避免放縱欲望帶來痛苦,也要避免過于“嚴苛”導緻的身心疲憊,要在行為、思想、生活态度等方面找到平衡和諧的狀态。

生活中,這種需要警醒“平衡”的時刻常伴左右,比如:

  • 工作相對不忙的時候(類似探索階段):這時候就可以乘着這個時間多學習,不隻是技術類的學習,還要包括各種軟技能,與人溝通的技能,思維表達的技能,思考問題的技能、處理沖突的技能等等,還要有些自己的興趣,找到些自己不熟悉但感興趣的群體,跟着他們一起學習新的東西,開拓自己的眼界,拓寬思考問題的次元。還可以多接觸些經典書籍,跟着古人多學習為人處世的思考和方法,都有助于自己思維的開拓。
  • 有重大項目要經常加班(類似利用階段):雖然項目緊,任務重,但是還是需要勞逸結合,能推掉的不必要的事情就推掉,不是目前最重要的事情先放一放,能通過讨論就不做的需求就讨論(盡量不讓不必要的需求進入開發階段),能遠離幹擾的環境就遠離(讓自己集中火力完成某個子產品的開發)等等。這些方法能讓你在項目緊的情況下,争取些時間來“休息、平衡”。隻有休息夠了,才會有更好的效率繼續做事。如果完成任務的時間已經恒定了,那我們隻能從“減少不必要的事物”和“提升做事的效率”入手來讓自己高效保質的完成任務了。

前有智者提倡“守中”,後有強化學習的“探索平衡政策”,無非都是在提醒我們生活中的每個階段都有目前階段的重點,跟着每個階段做對應的事情很重要,但是也要避免過多的“極度”的狀态,“保持平衡”的思想更有利于當下和長遠的發展!

本文由 @養心進行時 原創釋出于人人都是産品經理,未經許可,禁止轉載

題圖來自Unsplash,基于 CC0 協定

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。

繼續閱讀