天天看點

“強化學習可解釋性”最新2022綜述

“強化學習可解釋性”最新2022綜述

新智元報道

來源:專知

【新智元導讀】強化學習可解釋性最新綜述論文。

強化學習是一種從試錯過程中發現最優行為政策的技術,已經成為解決環境互動問題的通用方法。

然而,作為一類機器學習算法,強化學習也面臨着機器學習領域的公共難題,即難以被人了解。缺乏可解釋性限制了強化學習在安全敏感領域中的應用,如醫療、駕駛等,并導緻強化學習在環境仿真、任務泛化等問題中缺乏普遍适用的解決方案。

為了克服強化學習的這一弱點,湧現了大量強化學習可解釋性(Explainable Reinforcement Learning,XRL)的研究。

然而,學術界對XRL尚缺乏一緻認識。是以,本文探索XRL的基礎性問題,并對現有工作進行綜述.具體而言,本文首先探讨了父問題——人工智能可解釋性,對人工智能可解釋性的已有定義進行了彙總;其次,建構了一套可解釋性領域的理論體系,進而描述XRL與人工智能可解釋性的共同問題,包括界定智能算法和機械算法、定義解釋的含義、讨論影響可解釋性的因素、劃分了解釋的直覺性;然後,根據強化學習本身的特征,定義了XRL的三個獨有問題,即環境解釋、任務解釋、政策解釋;之後,對現有方法進行了系統的歸類,并對XRL的最新進展進行綜述;最後,展望了XRL領域的潛在研究方向。

http://www.jos.org.cn/jos/article/abstract/6485

人工智能(Artificial Intelligence, AI)和機器學習(Machine Learning, ML) 在計算機視覺[1] 、自然語言處理 [2] 、智能體政策[3] 等研究領域都取得了突破,并逐漸融入人的生活.雖然 ML 算法對于很多問題具有良好表 現,但由于算法缺乏可解釋性,模型實際使用中常受到質疑[4] [5] ,尤其在安全敏感的應用領域,如自動駕駛、醫 療等.缺乏可解釋性的問題已經成為機器學習的瓶頸問題之一.

強化學習(Reinforcement Learning, RL)被驗證适用于複雜的環境互動類問題[6]-[8] ,如機器人控制[9] ,遊 戲 AI[10] 等.但作為機器學習的一類方法,RL 同樣面臨着缺乏可解釋性的問題,主要表現在如下 4 個方面:

(1) 安全敏感領域中的應用受限.由于缺乏可解釋性,RL 政策難以保證其可靠性,存在安全隐患.這一問題 在安全敏感任務(如醫療、駕駛等)中難以被忽略.是以,為避免模型不可靠帶來的危險,RL 在安全敏感 任務中大多局限于輔助人類的決策,如機器人輔助手術[11] ,輔助駕駛[12] 等;

(2) 真實世界知識的學習困難.雖然目前 RL 應用在一些仿真環境中具有優異表現,如 OpenAI gym[13] , 但這些仿真環境以簡單遊戲為主,與真實世界存在較大差異.另外,RL 應用難以避免對環境的過拟合. 當過拟合發生時,模型學到環境的背景資訊,而非真正的知識.這導緻了兩難的問題,一方面,在真實世 界中訓練 RL 模型通常消耗巨大,另一方面,難以确定在虛拟環境中訓練的模型學到了真實的規律.

(3) 相似任務的政策泛化困難.RL 政策通常與環境存在強耦合,難以被應用到相似環境中.甚至在同樣的 環境下,環境參數的微小變化也會極大影響模型性能.這一問題影響了模型的泛化能力,難以确定模 型在相似任務中的表現.

(4) 對抗攻擊的安全隐患難于應對.對抗攻擊[14] 是一種針對模型輸入的攻擊技術,通過将微小的惡意擾 動加入到模型的輸入中生成對抗樣本.對人而言,對抗樣本不影響判斷,甚至難以察覺,然而對于模型 而言,對抗樣本會使模型的輸出産生極大的偏差.對抗攻擊從深度學習擴充到 RL[15] [16] ,成為 RL 算 法的安全隐患.對抗攻擊的有效性進一步暴露了 RL 缺乏可解釋性的問題,同時也進一步說明 RL 模 型并未學到真正的知識.

解釋對模型的設計者和使用者都具有重要的意義.對于模型的設計者,解釋能展現模型所學的知識,便于 通過人的經驗驗證模型是否學到魯棒的知識,進而使人高效地參與到模型的設計和優化中;對于特定領域的專 家使用者,解釋提供模型的内部邏輯,當模型表現優于人時,便于從模型中提取知識以指導人在該領域内的實 踐.對于普通使用者,解釋呈現模型的決策的原因,進而加深使用者對模型的了解,增強使用者對模型的信心.

強化學習可解釋性(Explainable Reinforcement Learning, XRL),或可解釋強化學習,是人工智能可解釋性 (Explainable Artificial Intelligence, XAI)的子問題,用于增強人對模型了解,優化模型性能,進而解決上述缺乏可 解釋性導緻的 4 類問題. XRL 與 XAI 之間存在共性,同時 XRL 具備自身的獨特性.

一方面,XRL 與 XAI 存在共性.首先,提供解釋的對象是智能算法而非機械算法.機械算法,如排序、查找 等,其特點是完備的輸入,固定的解法以及明确的解.而智能算法因為輸入的不完備以及解法的不确定,導緻算 法必須在解空間中尋找較優的解;其次,人和模型是兩個直接面對的關鍵實體.與其他技術不同,可解釋性方法 關注人對模型的了解.由于人對大量條例混亂的資料缺乏了解,是以解釋通常對模型内在邏輯的抽象,這一過程 必然伴随對模型政策的簡化.其中的難點是,如何在向人提供解釋時,保證該解釋與模型主體邏輯的一緻性;最 後,解釋的難度是相對的,同時由問題規模和模型結構兩個因素決定,并且這兩個因素在一定條件下互相轉化. 例如,結構簡單的模型(如決策樹、貝葉斯網絡等)在通常可以直覺的展示輸入和輸出之間的邏輯關系,但面對由 大量簡單結構組成的龐大模型,其錯綜複雜的邏輯關系仍然導緻模型的整體不可了解.同時,雖然結構複雜的模 型(如神經網絡)通常難以被了解,但當模型被極緻約減時(如将神經網絡塌縮為具有少數變量的複合函數),模型本身仍然可以被人所了解。

另一方面,XRL 也具備自身的獨特性.強化學習問題由環境、任務、智能體政策三個關鍵因素組成,是以, 解決 XRL 問題必須同時考慮這三個關鍵因素.由于 XRL 的發展仍處于初步階段,大部分方法直接從 XAI 的研 究中繼承,導緻現有研究集中于對智能體政策的解釋,即解釋智能體行為的動機及行為之間的關聯.然而,缺乏 對環境和任務的認識使得一些關鍵問題無從解決:缺乏對環境的認識使人在面臨複雜任務時,缺乏對環境内部 規律的了解,導緻對環境狀态進行抽象時忽略有利資訊,使智能體難以學到真實的規律;缺乏對任務的解釋使任 務目标與過程狀态序列之間的關聯不明确,不利于智能體政策與環境的解耦合,影響強化學習智能體政策在相 似任務或動态環境中的泛化能力.是以,對環境、任務和政策的解釋存在強關聯,是實作強化學習解釋必然面臨 的問題.

目前,XRL 已經成為 AI 領域的重要議題,雖然研究者們為提高強化學習模型的可解釋性做出了大量工作, 但學術界對 XRL 尚且缺乏一緻的認識,導緻所提方法也難以類比.為了解決這一問題,本文探索 XRL 的基礎性 問題,并對現有工作進行總結.首先,本文從 XAI 出發,對其通用觀點進行總結,作為分析 XRL 問題的基礎;然後, 分析 XRL 與 XAI 的共同問題,建構出一套可解釋性領域的理論體系,包括界定智能算法和機械算法、定義解釋 的含義、讨論影響可解釋性的因素、劃分解釋的直覺性;其次,探讨 XRL 問題的獨特性,提出包括環境解釋、任 務解釋和政策解釋的三個 XRL 領域的獨有問題;随後,對現有 XRL 領域的研究進展進行總結.以技術類别和解 釋效果為依據将對現有方法進行分類,對于每個分類,根據擷取解釋的時間、解釋的範圍、解釋的程度和 XRL 的獨有問題,确定每類方法的屬性;最後,展望了 XRL 領域的潛在研究方向,重點對環境和任務的解釋、統一的 評估标準兩個方向進行展開.

1 人工智能可解釋性的觀點總結

對 XRL 的研究不能脫離 XAI 的基礎。一方面,XRL 是 XAI 的子領域,其方法和定義密切相關,是以 XRL 的 現有研究廣泛借鑒了 XAI 在其他方向(如視覺)的成果;另一方面,XRL 目前仍處于起步階段,對其針對性的讨論 較少,而對于 XAI,研究者們長期以來進行了廣泛的研究和讨論[17] -[24] ,具有深刻的借鑒意義。基于上述原因, 本文從 XAI 的角度探讨可解釋性問題,整理出學術界對 XAI 的共識,以此作為 XRL 的研究基礎。

雖然學者們從不同角度對 XAI 的定義在特定情況下指導着一類研究。然而,缺乏精确而統一的定義使得學 術界對 XAI 的認識存在一定差異。本文對 XAI 相關的定義進行總結,并将其分為形而上的概念描述、形而下的 概念描述兩類。

形而上的概念描述使用抽象概念對可解釋性進行定義[25] -[28] 。這些文獻使用抽象的詞描述可解釋性算法,例如可信性(trustworthy),可靠性(reliability)等。其中可信性意味着人以較強的信心相信模型所做的決定,而可 靠性意味着模型不同場景下總是能保持其性能。雖然這樣抽象的概念不夠精确,隻能産生直覺的解釋,但仍然可以使人準确了解可解釋性的目标、對象和作用,建立對可解釋性的直覺認知。這些概念表明,可解釋性算法具備 兩個關鍵實體,即人和模型。換而言之,可解釋性是一項以模型為對象,以人為目标的技術。

形而下的概念描述從哲學、數學等的觀點出發,基于解釋的現實意義對其進行定義。如 Páez 等人[17] 從哲 學角度出發,認為解釋所産生的了解并不完全等同于知識,同時了解的過程也不一定建立在真實的基礎上。我們 認為,解釋作為媒介存在,這個媒介通過呈現模型的真實知識或建構虛拟邏輯的方式,增強人對模型的了解。同 時,人對模型的了解不必建立在完全掌握模型的基礎上,隻要求掌握模型的主要邏輯,并能對結果進行符合認知 的預測。Doran 等人[29] 認為,可解釋性系統使人們不僅能看到,更能研究和了解模型輸入和輸出之間的數學映 射。一般而言,AI 算法的本質是一組由輸入到輸出的數學映射,而解釋則是将這樣的數學映射以人類可了解和 研究的方式展現出來。雖然數學映射也是人們為描述世界而創造的一種方式,但對于複雜的數學映射(如用于表 示神經網絡的高維多層嵌套函數),人們卻無法将其與生活中的直覺邏輯相聯系。Tjoa 等人[19] 認為,可解釋性 是用于解釋算法做出的決策,揭示算法運作機制中的模式以及為系統提供連貫的數學模型或推導。這一解釋也 基于數學表達,反映出人們更多地通過模型的決策模式來了解模型,而非數學上的可重制性。

一些觀點與上述文獻存在微小出入,但仍具有借鑒意義。例如,Arrieta 等人[21] 認為可解釋性是模型的被動 特征,訓示模型被人類觀察者了解的程度。這個觀點将模型的可解釋性視為被動特征,忽略了模型為了更強的可 解釋性而主動提出解釋的可能。Das 等人[23] 認為,解釋是一種用于驗證 AI 智能體或 AI 算法的方式。這一觀點 傾向于關注模型的結果,其目的是為了確定模型一貫的性能。然而該描述忽略了一個事實,即模型本身意味着知 識,可解釋性不僅是對模型結果的驗證,同時也有助于從模型中提取人們尚未掌握的知識,促進人類實踐的發 展。雖存在較小出入,但上述觀點也提出了獨特的角度,例如,可以将模型的可解釋性視為模型的一個特性,而評 估模型的性能是解釋的重要功能。

雖然對 XAI 的定義衆多,但就整體而言,學術界對 XAI 的基本概念仍然是一緻的。本文嘗試提取其中的共 性作為研究 XRL 問題的理論基礎。通過對以上文獻的分析,我們總結出學術界對 XAI 的共識:

(1) 人與模型是可解釋性直接面對的兩個關鍵的實體,可解釋性是一項以模型為對象,以人為目标的技 術;

(2) 解釋作為了解的媒介存在,該媒介可以是真實存在的事物,也可以是理想建構的邏輯,亦或是二者并 舉,達到讓人能夠了解模型的目的;

(3) 人的對模型的了解不需要建立在完全掌握模型的基礎上;

(4) 可準确重制的數學推導不可取代可解釋性,人對模型的了解包括感性和理性的認知;

(5) 可解釋性是模型的特性,這一特性可用于驗證模型的性能。

2 強化學習可解釋性與人工智能可解釋性的共同問題

在對 XAI 定義進行總結的基礎上,本節讨論 XRL 與 XAI 面臨的共同問題。由于 XRL 與 XAI 之間存在強 耦合,是以本節内容既适用于 XAI,同時也是 XRL 的基礎問題。

2.1 智能算法和機械算法界定

可解釋性的對象是智能算法而非機械算法。傳統認知中的機械算法,如排序、查找等,面對确定的任務目标, 同時具有固定的算法程式。強化學習作為一種智能算法,在與環境動态互動的過程中尋找最優的政策,最大化獲 得的獎賞。界定智能算法和機械算法可用于确定被解釋的對象,進而回答「什麼需要被解釋」的問題。一方面,智能 算法與機械算法存在差異,而解釋隻在面向智能算法時存在必要性;另一方面,即使對于強化學習,也無需對其 所有過程産生解釋,而應針對其具有智能算法特性的部分進行解釋,如動作生成、環境狀态轉移等。是以,在讨論 可解釋性問題前,有必要區分智能算法和機械算法。

本文根據算法對已知條件的擷取程度和模組化的完整性,定義「完全知識」和「完全模組化」:

完全知識:已知足夠任務相關的有效知識,具備以機械過程獲得最優解的條件;

完全模組化:進行完整的問題模組化,具備完成任務所需的計算能力;

完全知識是以機械方法确定最優解的前提。例如,求解系數矩陣的秩為 的線性方程組,完全知識表示其增 廣矩陣的秩大于等于系數矩陣的秩,此時可以根據目前知識,獲得确定的解或者确定其無解;完全模組化意味着對 現有知識的充分利用,換言之,完全模組化從模組化者的角度出發,表示在解決任務的過程中有能力(包括程式設計 者的設計能力和硬體的算力)利用所有的知識。例如,在 19×19 圍棋遊戲中,存在理論上的最優解法,但目前尚不 具備足夠的計算能力在有限時間内擷取最優解。

根據上述對完全知識和完全模組化的定義,本文進一步提出「任務完全」的概念來确定機械算法與智能算法 之間的邊界:

任務完全:對特定任務,具備完全知識并進行完全模組化。

任務完全必須在完全知識的前提下進行完全模組化。滿足任務完全的條件後,算法的優劣取僅決于模組化方式 和使用者的實際需求。任務完全的定義考慮了知識和模組化兩方面因素(圖 1)。

任務完全的概念可以用來區分機械算法和智能算法。機械算法是任務完全的,具體來說,算法已知足夠的 知識,并進行了無簡化的模組化。此時,算法具備擷取最優解的條件,是以算法的過程是确定的,獲得的解也是可預期的。例如,經典排序算法、傳統資料查詢、3×3 井字棋遊戲算法等都屬于機械算法。智能算法是任務不完全的, 這意味着算法不具備足夠的知識,或者采取了簡化的模組化方式。智能算法無法直接擷取最優解,通常在解空間中 尋找較優的解。如基于貪心政策的算法,線性回歸方法,19×19 傳統圍棋政策,機器學習類算法等。

導緻任務不完全的可能有二,即知識不完全和模組化不完全。在知識不完全的情況下,算法無法直接确定最 優解,是以隻能在解空間中逼近最優解。此時,智能算法的實際作用是在解空間中進行解的選擇。導緻知識不完 全的因素通常是客觀的,如環境狀态無法被完全觀測,任務目标不可預知,任務評價名額的不可知,任務始終點 不可知等等;在模組化不完全的情況下,算法通常忽略某些知識,導緻算法過程沒有充分利用知識,進而無法獲得 最優解。模組化不完全的原因有客觀和主觀兩方面,客觀原因如模組化偏差,不完全模組化等,主觀原因包括降低硬體 需求,模型提速等。在強化學習中,并非所有過程具備任務不完全的特點,是以隻有部分需要進行解釋,如政策生 成、環境狀态轉移等。

“強化學習可解釋性”最新2022綜述

2.2 對「解釋」的定義

在漢語詞典中,解釋有「分析、闡明」的含義。這不僅符合生活中對該詞的了解,同時也與可解釋性研究中「解 釋」的含義相近。然而,具體到可解釋性的研究中,這一含義顯得寬泛。我們希望結合對可解釋性的了解,細化「解 釋」的含義,使之具有更強的指導意義。以強化學習模型為例,模型學習使獎勵最大化的政策,其中包含着環境、獎 勵和智能體之間的隐式知識,而 XRL 算法則是将這些隐式知識顯式地表現出來。本文将多個知識視為集合,稱 為知識體系,從知識體系互相之間關系的角度,對「解釋」做出如下定義:

解釋:知識體系之間的簡潔映射。簡潔映射是在不引入新知識的條件下對目标知識進行表達;

具體來說,解釋是将基于原知識體系的表達轉換為目标知識體系表達的過程,這個過程僅使用目标知識體 系的知識,而不引入新的知識。而 XRL 算法的目的在于産生解釋,進而使原知識體系能夠被目标知識體系簡潔 的表達出來。在 XRL 中,原知識體系通常指代強化學習模型,而目标知識體系通常指人的認知,模型和人是可解 釋性的兩個關鍵實體。本文将原知識體系看作由多個元知識及其推論構成的集合。以 表示元知識, 表示知識 體系,則 。假設智能體習得的知識屬于知識體系 ,而人類能夠了解的知識屬于知識體系 ,則解釋 是将知識體系 轉換為知識體系 表達的過程。對于解釋而言,簡潔映射是必要的,非簡潔的映射可能提升解釋 本身的被了解難度,進而導緻解釋本身讓人無法了解(見 2.3 )。

在對知識進行轉換表達的過程中,待解釋的知識可能無法完全通過目标知識體系進行描述,這時隻有部分 知識可以被解釋。本文使用「完全解釋」和「部分解釋」的概念描述這一情況:

完全解釋:待解釋的知識完全被目标知識體系表達。其中,被解釋的知識屬于目标知識體系是其必要條件;

部分解釋:待解釋的知識的部分被目标知識體系表達。

具體來說,完全解釋和部分解釋描述的是知識體系之間的包含情況(圖 2)。隻有當待解釋的知識體系完全 被目标知識體系所包含時,才可能進行完全解釋,否則隻能進行部分解釋。在 XRL 中,完全解釋通常是不必要的。

一方面,待解釋知識體系和目标知識體系的邊界難以确定,導緻完全解釋難度高且耗費巨大;另一方面,實作對 模型的解釋通常不需要建立在對模型完全掌握的基礎上。是以,部分解釋是大部分可解釋性研究中采用的方法, 即隻描述算法的主要決策邏輯。

“強化學習可解釋性”最新2022綜述

2.3 可解釋性的影響因素

一個觀點認為,傳統 ML(RL 為其子集)方法是易于解釋的,而深度學習的引入使得可解釋性産生了短闆,導 緻 ML難于解釋,是以 ML 解釋的本質是對深度學習的解釋[21] 。這與可解釋性領域的認知相悖[28] 。這一觀點隻 關注模型而忽略了人在可解釋性中的地位。對于人而言,即使是理論上可被了解的模型,當規模擴張到一定程度 時,仍然會導緻整體的不可了解。本文對可解釋性的影響因素進行如下定義:

透明度:待解釋模型結構的簡潔程度;

模型規模:待解釋模型包含的知識量和知識組合多樣化程度;

本文認為,可解釋性是對模型元件透明度和模型規模的綜合描述。透明度和模型規模是影響可解釋性的兩 個主要因素。具體來說,可解釋性強意味着同時具備高透明度和低複雜度,而單一因素,如複雜度高或透明度低 将導緻模型的弱可解釋性(圖 3)。

在不同語境下,「透明」一詞具有不同的含義。例如,在軟體結構中,透明指的是對底層過程的抽象程度,意味 着上層程式無需關注底層的實作。類似的,透明度在可解釋性領域也存在不同的含義,如文獻[26] [27] 認為透明 度是模型可以被了解的程度,将透明度與可解釋性等價。以強化學習為例,基于值表的強化學習算法在規模一定 時通常具有更強的可解釋性,而使用深度學習拟合值表則可解釋性更弱,這是因為通過查詢值表而産生政策的 過程符合人的直覺了解,但神經網絡傳播過程僅在數學上可被準确描述,于人而言透明度更低。然而,這一思考 将構模組化型的基礎結構作為可解釋性的重點,而忽略了模型規模對解釋帶來的難度,并忽略了解釋的目标—— 人。是以,為突出模型規模對解釋的影響,我們僅将透明度狹義了解為待解釋模型的結構的簡潔程度。

模型規模從人了解能力的角度衡量解釋的難度。具體來說,假設模型中的知識由一系列元知識構成,則模 型規模表示元知識總量和知識之間組合的多樣化程度,而解釋的難度一定程度上取決于模型規模,當模型規模 超過特定範圍(人的了解能力)時模型将無法被了解。例如,線性加性模型、決策樹模型、貝葉斯模型,由于計算過 程簡潔,使我們能夠輕易了解模型基于何因素得到何種結果,是以被認為是易于了解的。然而,當模型規模逐漸 龐大時,各因素之間的邏輯不可避免地互相交織,變得錯綜複雜,使我們最終無法抓住其主從關系。對于以簡潔 結構(如決策樹分支)構成的大規模模型,雖然所有結果在理論上有迹可循,但當模型規模已超越人類的了解能 力,導緻系統整體将仍然不具備可解釋性。

“強化學習可解釋性”最新2022綜述

2.4 可解釋性的程度劃分

人的學習過程與強化學習過程存在一定的相似性,是以,如果将人腦看作目前最先進的智能模型,則人對 模型的了解不僅僅是人對模型的直覺感受,也是一個先進的智能體對強化學習模型的綜合評估。然而,一個無法 了解的模型不可能被有效評估,是以對模型的解釋成為人了解模型的媒介。作為人和模型之間媒介,可解釋性算 法不同程度的具備兩個互相平衡特點:接近模型和接近人的感覺。具體來說,不同的解釋有的更注重準确的描述 模型,而另一些更注重與人的感覺一緻。基于這一概念,本文将可解釋性分為如下三個層次:

(1) 數學表達:通過理想化的數學推導解釋模型。數學表達是使用數學語言簡化模型的表達。由于強化學 習模型建立在數學理論的基礎上,是以通過數學表達可以準确地描述和重構模型。雖然數學理論體 系是人描述世界的一種重要方式,但其與人的普遍直覺之間存在較大差異。以深度學習為例,雖然存 在大量文章論證了其在數學上的合理性,但深度學習方法仍然被認為是不可解釋的。是以,數學的表 達能夠在微觀(參數)層面對模型進行描述,但難以遷移至人類知識體系;

(2) 邏輯表達:通過将模型轉換為顯性的邏輯規律解釋模型。邏輯表達是對模型中主體政策的提取,即忽 略其細微分支,凸顯主體邏輯。一方面,邏輯表達保留了模型的主體政策,是以與模型真實決策結果相 近,解釋本身可以部分重制模型的決策;另一方面,邏輯表達簡化了模型,符合人的認知。邏輯表達是較 為直覺的解釋,但需要人具備特定領域的知識,是面對人類專家的解釋,而對一般使用者尚不夠直覺;

(3) 感覺表達:通過提供符合人類直覺感覺的規律解釋模型。感覺表達基于模型生成符合人類感覺的解 釋,由于不需要人具備特定領域的知識,是以易于了解。例如,可視化關鍵輸入、示例對比等解釋形式 都屬于感覺表達的範疇。然而,感覺表達通常是對模型政策的極大精簡,因為無法重制模型的決策,導 緻其隻解釋決策的合理性。

在可解釋性的三個層次中,數學表達作為第一個層次,也是建構強化學習算法的理論基礎。在已知模型所 有參數的情況下,數學表達通常可以較為準确的推斷出模型的結果,然而,數學上的合理性不意味着能被人所理 解;邏輯表達介于數學表達和感覺表達之間,是對模型政策的近似,但邏輯表達方法産生的解釋通常要求使用者具 備特定領域的專業知識;感覺表達對模型決策的重要因素進行篩選,并使用清晰、簡潔的形式進行呈現,雖然結 果易于了解,但已經不具備重構政策的能力。總而言之,不同的解釋在接近模型和接近人類感覺之間存在着平 衡,難以兼顧。

3 強化學習可解釋性的獨有問題

與其他 ML 方法不同,RL 問題由環境、任務、智能體三個關鍵因素組成。其中,環境為給定的具有一定内部規律的黑盒系統;任務為智能體為最大化其平均獎賞的而拟合的目标函數;政策是智能體行為的依據和一系 列行為之間的關聯。根據強化學習的三個關鍵組成因素,本文歸納出 XRL 的三個獨有問題,即環境解釋,任務解 釋,政策解釋。三個獨有問題之間存在着密切的關聯,與整個強化學習過程密不可分,是實作強化學習解釋直接 面臨的問題。

4 強化學習可解釋性研究現狀

由于 XRL 涉及的領域廣泛,學者從各領域的角度出發,導緻所提出的方法具有較大差異。是以,本節分兩步 對相關方法進行總結。首先,根據技術類别和解釋的展現形式,将現有方法分為視覺和語言輔助解釋、政策模仿、 可解釋模型、邏輯關系提取和政策分解五個類别。然後,在通用分類方法(即擷取解釋的時間、解釋的範圍)的基 礎上,結合本文所提出的分類依據(即解釋的程度,面對的關鍵科學問題),确定不同類别方法的屬性。

在可解釋性領域中,分類通常基于擷取解釋的時間和解釋的範圍兩個因素[31] 。具體而言,根據擷取解釋的 時間,可解釋性方法被分為固有(intrinsic)解釋和事後(post-hoc)解釋。固有解釋通過限制模型的表達,使模型在運 行時生成具備可解釋性的輸出。例如,基于較強可解釋性的原理群組件(決策樹、線性模型等)構造模型,或者通過 增加特定過程使模型生成可解釋性的輸出;事後解釋是通過對模型行為的分析,總結模型的行為模式,進而達到 解釋的目的。通常而言,固有解釋是政策産生過程中的解釋,特定于某個模型,而事後解釋是政策産生後的解釋, 與模型無關。根據解釋的範圍,可解釋性方法被分為全局(global)解釋和局部(local)解釋,全局解釋忽略模型的微 觀結構(如參數、層數等因素),從宏觀層面提供對模型的解釋,局部解釋從微觀入手,通過分析模型的微觀結構獲 得對模型的解釋。

除上述可解釋性的通用分類之外,本文基于解釋與模型和人類感覺的符合程度,将可解釋性方法分為數學 表達、邏輯表達和感覺表達三類(見 2.4 )。這三類可解釋性方法展現出可解釋性算法在解釋的形式、解釋與模 型結果的近似程度和解釋的直覺度等方面的差別。前文(見 3 )分析了 XRL 面臨的 3 個關鍵問題,即環境解釋, 任務解釋和政策解釋。目前,單個 XRL 方法難以同時解決三類問題,是以,我們也以此為依據,對目前 XRL 方法所 着眼的問題進行區分。

綜上所述,本文以「擷取解釋的時間」、「解釋的範圍」、「解釋的程度」以及「關鍵問題」為依據,對 XRL 方法 進行分類(見表 1)。由于算法多樣,表 1 僅顯示大類别算法的特點,部分算法可能不完全符合

“強化學習可解釋性”最新2022綜述

總結

本文以 XRL 的問題為中心,讨論了該領域的基礎問題,并對現有方法進行總結。由于目前在 XRL 領域,乃至 整個 XAI 領域尚未形成完整、統一的共識,導緻不同研究的基礎觀點存在較大差異,難于類比。本文針對該領域 缺乏一緻認知的問題,進行了較為深入的研究工作。首先,本文參考 XRL 領域的父問題——XAI,收集 XAI 領域 的現有觀點,并整理出 XAI 領域較為通用的認識;其次,以 XAI 領域的定義為基礎,讨論 XAI 與 XRL 面臨的共同 問題;然後,結合強化學習自身的特點,提出 XRL 面臨的獨有問題;最後,總結了相關的研究方法,并對相關方法進 行分類。分類中包括作者明确指出為 XRL 的方法,也包括作者雖未着重強調,但實際對 XRL 有重要意義的方法。XRL 目前尚處于初步階段,是以存在大量亟待解決的問題。本文重點提出環境和任務的解釋、統一的評估标準 兩類問題。本文認為這兩類問題是為類 XRL 領域的基石,是值得重視的研究領域。

參考資料:

繼續閱讀