天天看點

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型
Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

今天介紹美國華盛頓大學保羅·艾倫計算機科學與工程學院的Su-In Lee團隊在nature mechine intelligence 2020的論文,該論文提出了一種基于博弈論沙普利值的TreeExplainer方法,用于從局部到全局的樹模型解釋性研究。

背景

随機森林、決策樹和梯度增強樹等基于樹的機器學習模型是目前比較流行的非線性預測模型,基于樹的模型在金融、醫藥、生物、廣告、供應鍊管理、制造、公共衛生等多個領域有着重要的應用。并且像是醫藥生物等領域對于模型除準确度外更關心其可解釋性,也就是說研究人員希望得出預測模型是根據什麼做出的判斷,如何得到預測結果,目前對樹模型預測結果的解釋研究相對較少。華盛頓大學的Lee團隊基于博弈論裡的Shapely Value提出了TreeExplainer方法,展示了如何結合許多高品質的局部解釋來了解全局模型,也就是從每一個樣例的解釋中去了解模型,進而得到模型做出預測的機理。

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

過往的預測模型是一個黑箱操作,盡管在樹的全局解釋方法方面存在豐富的曆史,但對局部的解釋關注甚少,使用TreeExplainer方法提升了模型的可解釋性,可以清楚的知道模型做出判斷的依據。

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

樹模型的局部解釋

對于目前樹模型的局部解釋方法,Lee團隊提到了以下三種:

一是簡單地報告決策路徑,但這對于大多數模型來說是沒有幫助的,特别是對多樹集合模型。

二是使用為每個輸入特征配置設定信用的啟發式方法(由Saabas提出),該啟發式信用配置設定的行為目前還沒有被仔細分析,然而該方法對基于樹深度改變特征的影響存在嚴重的偏差,這種偏差會導緻Saabas value值的不一緻性。

三是應用模型不可知的各種各樣方法需要為每個解釋重複執行模型,由于模型不可知的方法依賴于對任意函數的事後模組化,是以,可能會很慢并且會受到采樣變化的影響。

Lee團隊提出的TreeExplainer方法能夠根據博弈論中期望的性質,友善地給出最優的局部解釋。TreeExplainer在基于經典博弈論Shapley value值的模型不可知論工作的基礎上,将理論與實際聯系起來。TreeExplainer有三個顯著的改進:

(1)準确性:基于精确Shapley value值,提出了多項式時間計算局部解釋的算法,為局部解釋提供了局部精度和一緻性的理論保障。

(2)擴充性:擴充局部解釋以直接捕獲功能互動,為每個輸入特征指定一個數字的局部解釋雖然非常直覺,但不能直接表示互動效果,文中基于泛化的Shapley value值提出測量局部互動效應的理論基礎,對模型的行為提供了有價值的見解。

(3)整體性:結合許多局部解釋整合解釋模型的全局行為,保持原始模型的局部信度,産生模型整體行為的詳細和準确的表示。

文中指出,在表格式資料集上,基于樹的模型始終優于标準的深度模型,在表格式資料集中,特征是單獨有意義的,并且缺乏強的多尺度時空結構,文中三個醫療資料集都是表格式的資料集,梯度增強樹在三個資料集上都優于純深度學習和線性回歸模型。

相較于前三種列舉出來的局部解釋方法,使用TreeExplainer方法計算Shapley value在衆多方面上提升了局部解釋的效果。

公平的特征信用配置設定:相比于Saabas value方法,Shapley value對每一個特征公平地指派,而不會受到其所在節點的深度的影響,進而保證了一緻性。

無估計差異:TreeExplainer的精确解釋消除了檢查收斂性和在估計中接受一定數量噪聲的額外負擔。

強大的benchmark性能:設計了15種評判名額,并将這些名額應用于三種不同模型類型和三種資料集上的十種不同解釋方法,TreeExplainer顯示了一緻性的性能提升。

與人類直覺判斷相一緻:基于Shaple value值的解釋方法在所有測試場景中都符合人類的直覺。

TreeExplainer還擴充了局部解釋來測量互相作用效果。雖然特征之間的互相作用效應可以反映在許多局部解釋的全局模式中,但在每個局部解釋中它們與主要效應的差別都消失了。

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

上圖左邊為全局模式,右邊為Age與blood pressure的互相作用,可以看到某些互相作用在全局模式中已經消失了。

結合局部解釋的全局了解

SHAP摘要圖

以前的一些方法對于模型可解釋性的探讨往往關注于使用簡單的全局近似,尋找新的可解釋特征或量化深度網絡中特定内部節點的影響。Lee團隊的TreeExplainer方法将資料集中的多個局部解釋進行結合,進而達到對模型判斷機理的全局了解,并能夠:(1)避免不一緻問題;(2)提高檢測資料集中真實特征相關性的能力;(3)建構SHAP(Shapley additive explanation)摘要圖,簡潔地顯示了特征效果、普遍性和方向,避免了把特征效果和普遍性混為一談,進而揭示了罕見的高幅值效果。

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

上圖是一個SHAP摘要圖,它可以揭示特征影響效果的方向,比如上圖右邊部分顯示出了男性比女性有着更高的死亡風險。

SHAP依賴圖

SHAP依賴圖比起傳統的部分依賴圖能夠提供更豐富的資訊,它展示了特征值是如何影響的預測值。

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

在死亡率模型中,SHAP依賴圖再現了血壓收縮壓的标準風險拐點,同時也強調了血壓對不同年齡人群死亡風險的影響是不同的。對于慢性腎髒疾病模型,依賴圖再次清楚地揭示了收縮壓的風險拐點。正确模組化血壓風險同時保持可解釋性是至關重要的,因為血壓控制在部分特定患慢性腎髒疾病人群中能夠緩解病變并降低患心血管疾病的風險。

SHAP互動值

使用SHAP互動值,可以将一個特性對特定樣本的影響分解為與其他特性的互動影響。

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

在死亡率資料集中,繪制年齡和性别之間的SHAP互相作用值顯示了男性和女性一生中相對風險的明顯變化。男性和女性之間最大的風險差異出現在60歲;男性患病風險的增加可能是由于他們的心血管疾病死亡率高于接近這個年齡的女性。如果沒有SHAP的互相作用值,這種模式就不能被清楚地捕捉到。

在慢性腎病模型中,Lee團隊發現了一個有趣的互相作用,當高血尿素氮伴随高白細胞計數時,模型更關注高白細胞計數。這支援了發炎可能與高血尿素氮互相作用加速腎功能下降的觀點。

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

模型監視

局部模型監控揭示了部署的機器學習模型以前無法發現的問題。通過使用TreeExplainer來解釋模型的loss,而不是模型的預測,可以提高監視已部署模型的能力。Lee團隊證明了本地模型監控有助于調試模型部署,并通過分解模型輸入特征中的損失來直接識别有問題的特征。

Lee團隊使用醫院手續流程持續時間資料集模拟了一個模型部署,該資料集使用第一年的資料進行訓練,後三年的資料用于部署。Lee團隊做了三個示例。

(1) 在部署過程中,Lee團隊故意交換了手術室6号房間和13号房間的标簽,以模拟典型的特征管道錯誤。模型預測的總體損失沒有顯示出錯,而6号房間的SHAP監測圖清楚地辨別了标簽錯誤。

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

(2) 下圖顯示了部署檢測開始後不久,總體麻醉特征的誤差出現了一個峰值。此峰值對應于受此前未發現的臨時電子病曆配置問題影響的資料子集。

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

(3) 下圖顯示了特征随時間變化而不是處理錯誤的示例。在訓練期間和部署的早期,使用“房顫”特征可以降低損失;然而,随着時間的流逝,該特征将逐漸變得不可用,并最終使模型退化。Lee團隊發現這種退化是由技術和人員配置變化驅動的房顫消融過程持續時間的顯著變化引起的。

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

解釋嵌入

局部解釋嵌入揭示了與慢性腎髒疾病的死亡風險和輔助診斷名額相關的人群亞群。通過對資料集中的每一個樣本進行局部解釋嵌入,映射到一個新的“解釋空間”,在嵌入空間進行聚類将産生一個有監督的聚類,其中樣本根據其解釋而分組。解釋嵌入

局部解釋嵌入揭示了與慢性腎髒疾病的死亡風險和輔助診斷名額相關的人群亞群。通過對資料集中的每一個樣本進行局部解釋嵌入,映射到一個新的“解釋空間”,在嵌入空間進行聚類将産生一個有監督的聚類,其中樣本根據其解釋而分組。

Nat. Mach. Intell.|從局部解釋到全局了解的樹模型

使用死亡率模型運作分級監督聚類的結果是,許多人群由于相似的原因而共享相似的死亡風險。

總結

基于樹的機器學習模型的局部解釋的潛在影響是廣泛存在的。模型解釋可以幫助滿足透明性需求,促進人工智能協作,并幫助模型開發、調試和監視。

繼續閱讀