天天看點

可解釋機器學習最新綜述:應用于實時場景中的機遇與挑戰

作者:将門創投

當一些傳統任務被應用到新的場景中時,我們不得不思考在新的場景對傳統方法有哪些新的要求。當可解釋機器學習被應用于實時場景時,有哪些新的機遇和挑戰呢?

可解釋機器學習最新綜述:應用于實時場景中的機遇與挑戰
論文連結:https://arxiv.org/abs/2302.03225代碼連結:https://github.com/ynchuang/awesome-efficient-xai
可解釋機器學習最新綜述:應用于實時場景中的機遇與挑戰

一、 什麼是可解釋機器學習?

深度模型(神經網絡)的推理過程是黑盒化的、不可解釋的。機器學習發展至今仍然無法完全打開這個黑盒子。可解釋機器學習的研究内容就是為深度模型的推理結果提供人類可以了解的解釋(原因)。這在有道德限制下的應用場景中是極其重要的。例如,某銀行利用深度學習算法來預測使用者的信用度以決定是否貸款給使用者。對于信用度預測值較低的使用者,銀行有責任提供合理的解釋來說明認定該使用者信用度低的原因。模型解釋可分為兩種:模型層面的解釋和樣本層面的解釋,如圖1所示。模型層面的解釋是展示出模型判斷的邏輯,如圖1(a)所示;樣本層面的解釋是展示出每個樣本的不同特征對于模型預測的貢獻度,如圖1(b)所示。由于複雜模型對于不同樣本的推理過程是多樣性的,是以宏觀的模型層面解釋很難适用于所有樣本。目前主流的研究工作更關注樣本層面的解釋。是以,本文所讨論的解釋算法都是樣本層面的解釋,不涉及模型層面的解釋。

可解釋機器學習最新綜述:應用于實時場景中的機遇與挑戰

圖1 (a)模型層面的解釋和(b)樣本層面的解釋。

二、實時系統需要怎樣的模型解釋算法?

雖然解釋算法能夠客觀地反映深度模型的推理依據,但是為每個樣本生成解釋的過程有相當高的計算複雜度。以目前主流的解釋算法為例:Shapley解釋如式(1)所示,其中 U 是全部特征組成的集合。計算規模随着特征數量的增多而指數級增長;積分梯度是一種有效的圖像解釋算法,如式(2)所示。它需要沿着積分路徑多次采樣模型的梯度值來近似估計積分值。

可解釋機器學習最新綜述:應用于實時場景中的機遇與挑戰

然而,在實時場景中,如線上推薦系統,醫療系統的實時監測以及自動駕駛的實時目标檢測等,我們需要算法可以快速高效地生成解釋。這就需要對現有解釋算法進行加速,以滿足實時系統的需求。本文彙總了目前主流的(算法層面)加速模型解釋算法(不涉及系統層面),分析了已有工作的局限性,并提出了未來研究的技術難點。

可解釋機器學習最新綜述:應用于實時場景中的機遇與挑戰

圖 2 模型解釋加速算法的分類。

三、非批量解釋的加速方法

非批量解釋的加速是指直接加速解釋量的估計,即直接加速式(1)以及式(2)或者其他解釋量的估計。該類方法可以分為以下幾種技術路線:優化特征選取、優化采樣過程、基于近似算法加速等。下面較長的描述每一種技術路線的代表工作。

優化特征選取: 這類方法通過去掉在Shapley解釋的估計過程中影響較小的特征來減少計算複雜度。比較有代表性的工作是 SHEAR [1]。SHEAR 選取每個特征與待估計特征的互相作用強度來選取少量的伴随特征,這樣。其他有代表性的工作是 L-Shapley 和 C-Shapley [2]。該工作在圖結構的解釋中提出兩種概念:Local Shapley 和 Connected Shapley,分别指的是每個節點在其所在子圖中的貢獻以及邊緣貢獻。L-Shapley 和 C-Shapley 可以通過對鄰居節點的枚舉快速估計。進一步,該工作指出 L-Shapley 和 C-Shapley 在某些條件下是 Shapley 解釋的無偏估計。是以可通過估計 L-Shapley 和 C-Shapley 來近似加速 Shapley 解釋。

優化采樣過程: 這類方法通過優化采樣分布來加速Shapley解釋估計的收斂速度。比較有代表性的工作是 APS [3] 和 OSC [4]。APS 的全稱是 Antithetical Permutation Sampling。該工作提出一種對稱采樣政策(Antithetical Sampling)來減小 Permutation Sampling 對于Shapley解釋的估計方差,進而加速估計值收斂與Shapley解釋;同理,OSC 是 Orthogonal Spherical Codes 的縮寫。該方法提出了在希爾伯特空間選取互相正交的特征排序。這種特征排序可以應用到估計Shapley解釋中來提高估計值收斂于真值的速度。

基于近似算法加速: 這類方法通過将不可解釋的深度模型近似為可解釋的模型進而實作快速得到解釋。具有代表性的工作是 Tree-SHAP [5] 和 Fast-IG [6]。Tree-SHAP 是針對樹模型的解釋算法,其時間複雜度是 O(TLD2),其中T、L和D分别是樹的數量、平均葉子數和平均深度。實際應用中,可以用樹模型來逼近神經網絡這類黑盒模型的輸出,進而用樹模型的解釋來代表神經網絡的解釋;Fast-IG 是一種加速積分梯度的算法。該工作發現具有非負齊次性的模型的積分梯度解釋可以通過模型的一次前饋傳播估計得到。但是神經網絡模型不具有非負齊次的性質,是以該工作提出了将神經網絡模型進行适當的近似進而滿足非負齊次性,進而實作加速模型解釋。基于近似算法的加速由于對原模型進行了一定近似,是以會影響模型的性能(準确率、召回率、F1得分等)。

四、批量解釋的方法

批量解釋方法是針對實時場景的解釋方法。從本文前幾段的内容可知,非批量解釋方法對每一個樣本的解釋都是分别進行的,即對每個樣本都分别執行一次解釋過程,如圖3(a)所示。這無疑是浪費時間的。為了實作高速估計模型解釋,一些工作開創性地提出了批量解釋方法,如圖3(b)所示。總的來說,批量解釋方法假設模型解釋的結果服從某種分布,這種分布可以通過一個全局解釋器來學習。學習過程在訓練集上進行,訓練好的解釋器可以在實際場景中批量生成解釋。批量解釋方法是模型解釋加速的質的飛躍。批量模型解釋的技術路線有:基于預測模型、基于生成模型和基于強化學習等。下面詳細叙述每一條技術路線的代表工作。

可解釋機器學習最新綜述:應用于實時場景中的機遇與挑戰

圖3 (a)非批量解釋方法和(b)批量解釋方法。

基于預測模型: 這類方法通過監督或者半監督的方式來學習全局解釋器。代表作有 L2X [7]、FastSHAP [8] 以及 CORTX [9]。L2X 訓練全局解釋器對資料特征進行遮掩,訓練目标是遮掩的特征不影響原模型的推理過程。這樣未被遮掩的特征就是重要特征。L2X 隻能将特征大緻分為重要的和不重要的。FastSHAP 訓練全局解釋器生成Shapley解釋,訓練目标是Shapley解釋的必要條件:任何一個特征子集的Shapley解釋之和表征了原模型基于該特征子集的預測值。FastSHAP 可以快速生成較為精确的解釋,但是需要利用原模型進行監督訓練。CORTX 開創性地提出通過對比學習的方式來預訓練解釋器,而後通過少量的解釋标注來 Fine-tune 解釋器,進而實作輕量級的解釋器訓練以及實際場景中的高精度解釋。

基于生成模型: 這類方法通過訓練生成模型來快速提供因果解釋。代表作有 MCS [10] 和 DiVE [11]。MCS 通過訓練一個條件對抗生成網絡來生成反事實樣本。反事實樣本可以推翻原模型的預測結果,這樣從原樣本到反事實樣本變化量就是模型預測值的因果解釋。DiVE 通過一個變分自編碼器來學習特征空間的非耦合隐空間(特征在原空間中是互相耦合的),進而在隐空間中生成反事實樣本,在通過變分自編碼器把反事實樣本映射至原空間進而估計解釋值。

基于強化學習: 這類方法通過強化學習來優化反事實樣本的生成過程。代表作有 RELAX [12] 和 FASTAR [13]。這類将原樣本變換為反事實樣本的過程抽象為馬爾科夫過程決策過程,即原樣本在每個時刻都發生一點變化,經過多個時刻的演化最終變為反事實樣本。RELAX 和 FASTAR 用強化學習的方式學習一個演化政策。原樣本經過演化政策生成的一系列變化量成為反事實樣本,累計變化量就是原模型的因果解釋值。

五、現有工作的局限性及未來研究的難點

解釋性能和速度的此消彼長: 目前大部分的模型解釋方法都存在解釋性能和速度的此消彼長,例如 KernelSHAP [14]、LIME [15]、IG [16] 等。對原模型采樣更多的預測值可以提高解釋的精度,但是會降低解釋生成的速度。此外,批量解釋方法需要在訓練集上學習全局解釋器。訓練過程的時間及空間消耗和訓練精度之間也存在類似的平衡關系。已有工作為可解釋機器學習提供了基準,未來解釋算法需要能達到性能和速度二者更優的平衡。

解釋方法的部署: 在已有工作中,解釋及加速方法的設計、實作及驗證都是基于 CPU 和 GPU結構的硬體。但是在實際應用場景中有很多其他種類及結構的硬體。已有算法無法從系統層面上達到最優的性能(記憶體消耗及運作速度)。部署模型解釋方法以适應不用種類及結構的硬體系統将會推動可解釋機器學習走向實際應用。

全局解釋器的隐私保障: 在目前批量解釋算法中,由于全局解釋器學到了訓練資料的分布,是以這會有資訊洩露的風險。所謂資訊洩露指的是第三方可以從訓練好的全局解釋器中恢複出訓練資料的分布。是以防止解釋器洩露訓練資料的分布也是推動可解釋機器學習走向實際應用需要克服的困難之一。

加速方法的選擇: 本文所介紹的以及更多的模型解釋算法都存在此消彼長的關系,即不存在某一種算法在所有的應用場景中都是最優的。然而決策者需要在實際應用中從衆多的解釋方法中選取最符合需求的一種或者幾種解釋方法。這無疑是困難的。一個解決方案是用算法來實作解釋方法的選取,這使得決策者在不用了解所有解釋方法的情況下仍然可以得到一種符合需求的解釋方法。

六、結束語

本文首先闡明了可解釋機器學習部署到實際場景中的速度需求,進而系統地介紹了目前主流的加速模型解釋算法;最後分析了已有工作的局限性,并提出了未來研究的技術難點。如果讀者想要了解更多内容,歡迎閱讀綜述原文:http://128.84.21.203/abs/2302.03225。綜述論文所涉及的所有技術論文已被彙總于:https://github.com/ynchuang/awesome-efficient-xai。

參考文獻

[1] Chuang Y N, Wang G, Yang F, et al. “Efficient XAI Techniques: A Taxonomic Survey.” arXiv preprint arXiv:2302.03225, 2023.

[2] J. Chen, L. Song, M. J. Wainwright, and M. I. Jordan, “L-shapley and c-shapley: Efficient model interpretation for structured data,” arXiv preprint arXiv:1808.02610, 2018.

[3] Rubinstein R Y, Kroese D P. “Simulation and the Monte Carlo method.” John Wiley & Sons, 2016.

[4] R. Mitchell, J. Cooper, E. Frank, and G. Holmes, “Sampling permutations for shapley value estimation,” 2022.

[5] S. M. Lundberg, G. Erion, H. Chen, A. DeGrave, J. M. Prutkin, B. Nair, R. Katz, J. Himmelfarb, N. Bansal, and S.-I. Lee, “From local explanations to global understanding with explainable ai for trees,” Nature machine intelligence, vol. 2, no. 1, pp. 56–67, 2020.

[6] Hesse R, Schaub-Meyer S, Roth S. “Fast axiomatic attribution for neural networks.” Advances in Neural Information Processing Systems, 2021.

[7] Chen J, Song L, Wainwright M, et al. “Learning to explain: An information-theoretic perspective on model interpretation”, International Conference on Machine Learning. PMLR, 2018.

[8] N. Jethani, M. Sudarshan, I. C. Covert, S.-I. Lee, and R. Ranganath, “Fastshap: Real-time shapley value estimation,” in International Conference on Learning Representations, 2021

[9] Yu-Neng Chuang, Guanchu Wang, Fan Yang, Quan Zhou, Pushkar Tripathi, Xuanting Cai, Xia Hu, “CoRTX: Contrastive Framework for Real-time Explanation,” in International Conference on Learning Representations, 2022.

[10] Yang F, Alva S S, Chen J, et al. “Model-based counterfactual synthesizer for interpretation,” Proceedings of the 27th ACM SIGKDD conference on knowledge discovery & data mining. 2021.

[11] Rodriguez, Pau, et al. “Beyond trivial counterfactual explanations with diverse valuable explanations.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

[12] Chen, Ziheng, et al. “ReLAX: Reinforcement Learning Agent Explainer for Arbitrary Predictive Models.” Proceedings of the 31st ACM International Conference on Information & Knowledge Management. 2022.

[13] Verma, Sahil, Keegan Hines, and John P. Dickerson. “Amortized generation of sequential algorithmic recourses for black-box models.” Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 36. No. 8. 2022.

[14] Lundberg, Scott M., and Su-In Lee. “A unified approach to interpreting model predictions.” Advances in neural information processing systems, 2017.

[15] Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. “Why should i trust you? Explaining the predictions of any classifier.” Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.

[16] Sundararajan, Mukund, Ankur Taly, and Qiqi Yan. “Axiomatic attribution for deep networks.” International conference on machine learning. PMLR, 2017.

作者:Guanchu Wang

Illustration by Delesign Graphics from IconScout-TheEnd-

本周上新!

掃碼觀看!

多家技術企業招聘來啦!

多家技術企業招聘來啦!有求必應的小将收集到來自TechBeat技術社群内技術企業的招人需求,包含來自科技大廠微軟亞研、騰訊、小紅書等企業,科技明星公司始途科技、梅卡曼德等企業的算法工程師等正式及實習崗位,歡迎有需求的大家向這些公司投遞履歷哦!

掃描了解詳情~

可解釋機器學習最新綜述:應用于實時場景中的機遇與挑戰

關于我“門”

将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋将門創新服務、将門技術社群以及。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

可解釋機器學習最新綜述:應用于實時場景中的機遇與挑戰

⤵一鍵送你進入TechBeat快樂星球

繼續閱讀