佐治亞理工學院：不要迷信解釋，小心被誤導

編譯|王維

校對|我正在嗅聞

解釋性對于人工智能的發展至關重要，但同樣重要的是要了解系統在其可信度方面可能産生的負面影響。

最近，佐治亞理工學院的研究小組發表了一項新的研究，重點關注人工智能系統（CEIs）的一個重要但無法解釋的負面影響。

位址：https://arxiv.org/pdf/2109.12480.pdf 在本文中，作者提出了"解釋陷阱（EP）"的概念，指出即使設計師最初沒有操縱使用者的意圖，模型的解釋性質也可能産生意想不到的負面影響，這與暗模式（DP）的故意欺騙不同，但與之相關。本文通過個案研究詳細闡述了Eps的概念，并證明了解釋的負面影響是不可避免的，最後作者從研究、設計群組織三個層面提出了具體的應對政策。

<h3>

</h3>

解釋性的"兩面"

開發可解釋和可信的下一代人工智能變得越來越重要，這種人工智能已廣泛應用于醫療保健，金融和刑事司法等高風險決策領域。為了提高人工智能的安全性，我們需要打開AI内部操作的黑匣子，為使用者提供一個可以了解的解釋。

目前關于解釋性AI（XAI）的研究取得了值得稱贊的進展，但新的研究發現，這些解釋的影響不一定是積極的，或者可能對下遊任務産生負面影響。例如，模組化者故意制造不合理的解釋，進而建立對人工智能系統的信任，進而掩蓋它們可能帶來的風險。更重要的是，雖然模型設計的初衷是好的，但這種負面影響似乎是不可避免的。

在這種情況下，我們如何區分有意和無意的負面解釋？你如何将有意的負面影響概念化？

作者引入了"可解釋性陷阱，EP"的概念，并指出AI解釋可能會誤導使用者做出符合第三方利益的未知和毫無戒心的決定。使用者對人工智能的信任，對能力的高估，以及對某些解釋的過度依賴，是他們不自覺地被"解釋性"操縱的主要原因。

EP和DP之間最大的差別在于"意圖"是不同的 - DP是故意欺騙性的，不考慮使用者的利益。但EP也可能通過故意設定"陷阱"而變得黑暗。

EP的概念不是純粹理論推導的結果，而是基于大量的實踐工作和經驗。這項工作表明，雖然沒有欺騙的意圖，但對人工智能和人工智能的解釋有意想不到的負面影響。

本文不是對EP的全面讨論，而是現有概念和實踐中的基本步驟。作者說，解釋陷阱的概念是為了通過讓人們意識到未探索的知識盲點（人工智能解釋的負面影響）來擴大XAI系統的設計空間。

智能"解釋陷阱"如何

在這項研究中，作者研究了兩個不同的群體 - 有和沒有AI背景的人 - 他們檢視了不同類型的AI解釋。以下是AI生成的三種解釋：

（1）有正當理由的自然語言（2）沒有正當理由的自然語言（3）為智能行為提供上下文無關的數字

在這項研究中，參與者在連續的決策環境中觀看了三個智能體的導航視訊，并提供了定性和定量的感覺資訊 - 在一個充滿滾動巨石和流動熔岩的環境中，以取回被困探險者所需的食物。

身體通過簡單地輸出目前狀态的數字Q值來執行"思考"過程（圖1）。Q 值表示智能在每個操作中的可信度（不包括"為什麼"可信度），并且參與者不會提前被告知這些 Q 值的含義，是以他們不知道哪些值對應于哪些操作。

圖 1：顯示任務環境中的智能導航

實驗發現，兩種類型的參與者都對數字有盲目的信任，但信任的程度和原因不同。作者用"認知靈感"的概念來試圖了解其背後的原因。他們發現

對于具有人工智能背景的參與者來說，僅僅數字的存在就可以引發啟發式思維。他們不完全了解智能身體決策背後的邏輯，但他們也将數學符号與邏輯算法的思維過程聯系起來。有趣的是，他們還将最聰明的人工智能投給了"最奇怪"的智能，這表明他們不僅過分強調數字結果，而且還認為"無法解釋的"數字可能是可操作的。這裡的術語"操作"是指人們在判斷或預測未來行為時可以利用這些資訊做些什麼。

那麼，智能身體在現實世界中的可操作性如何呢？如前所述，Q值并不表示決策背後的"原因"。除了評估現有行動的品質外，這些數字并不十分實際。換句話說，參與者對智力産生了過度的信任和錯位的評估。

對于沒有人工智能背景的參與者來說，即使無法了解複數也會引發啟發式推理，在他們看來，智力必須是智能的，代表着"神秘而難以了解"的獨特智能語言。應該注意的是，這種推理與具有以前AI背景的人的推理過程不同，後者假設未來的可操作性（盡管缺乏了解）。

正如我們所看到的，無标記和難以了解的數字增加了兩組人對情報的信任和評估。這個案例研究表明，即使沒有作弊的意圖，EP也可能産生意想不到的結果，并誤導參與者過度依賴數字生成。

需要強調的是，本案假設 Q 值有意是好的，如果這些數字縱，有些人利用這些隐患惡意設計暗模式，鑒于使用者在案例中的啟發式信任，會誤導更多的人對系統産生過度信任和不正确的感覺。

有哪些規避政策？

綜上所述，解釋陷阱（EP）有兩個特點：它隻存在，但不一定損害下遊，現有知識無法預測給定的人工智能何時、如何以及為什麼會引起意想不到的負面下遊效應。

基于以上兩點，筆者認為，雖然不太可能完全消除解讀的負面影響，但我們需要意識到"陷阱"的存在，了解它們何時容易出現，以及它們是如何工作的，并制定适當的措施來防止微觀二進制化。在本文中，作者從研究，設計群組織的三個互相關聯的方面提出了幾種政策：

在研究層面，進行了更多以人為本的情境和實證研究，以詳細了解不同次元的不同利益相關者。這是因為當下遊效應（例如使用者對心動鏡的看法）被表達出來時，陷阱就會被揭示和識别。在上面的例子中，具有不同AI背景的使用者建立了相同的陷阱（即，過度信任數字），但具有不同的啟發式模式。

其實，基于這個案例，我們還可以從使用者的知識背景和了解兩個次元的差異中進一步探讨：使用者的綜合特征（如教育背景和專業背景）如何影響EP的易感性？不同的啟發式方法如何檢測不良反應？不同的使用者如何适應意想不到的解釋？在這些探索中，陷阱感可以幫助我們深入了解人們對人工智能解釋的反應如何偏離設計師的意圖。

在設計層面，一個有效的政策是在解釋過程中加強使用者的反思（而不是簡單地接受）。最近以人為本的XAI工作也倡導通過反思将促進信任的方法概念化。蘭格等人指出，如果我們不有意識地、仔細地思考這個解釋，我們就會增加落入"陷阱"的樣子。為了引起人們的注意，蘭格等人建議設計"硬反應"或"深思熟慮的反應"，使用縫合的設計視角來幫助提高注意力。縫紉設計補充了計算系統中"無縫"的概念，該概念植根于通用計算。接縫的概念與XAI非常一緻，因為：（a）AI系統部署在太空中，（b）這種方法可以看作是對"無縫"AI決策的黑暗模式的回應，具有"零摩擦"或了解。

在形式和功能方面，接縫戰略性地揭示了不同部分之間的複雜性和連接配接性，同時隐藏了分散注意力的元素。這種戰略披露和隐瞞的概念是設計的核心，因為它将形式和功能聯系起來，對這種聯系的了解促進了反思性思維。是以，Seamful的解釋戰略性地揭示了系統的缺陷和容忍度，并掩蓋了可以促進有用反思的分散注意力的資訊。

在組織層面，為設計師和最終使用者引入教育（教育訓練）計劃。建立一個生态系統很重要，因為EP在社會層面是複雜的，我們需要一個超越技術層面的戰略。最近的研究表明，對黑暗模式的素養可以促進自我檢討并減輕傷害。環保産品素養計劃可制定如下：（a）幫助設計師了解環保産品的可能表現;（b）協助設計人員了解環保産品的可能表現;（c）協助設計人員了解環保産品可能的表現;（c）協助設計人員了解環保産品可能的表現;（c）確定環保産品具有可推廣性;（e）提高環保産品的競争力;（e）提高電子唱片的可及性;（e）

總體而言，這些政策有助于我們積極預防EP并提高對陷阱的抵禦能力。雖然它不是詳盡無遺和受管制的，但它是解決潛在有害問題的重要一步。

總結

從安全性和可靠性的角度來看，XAI系統對AI解釋的影響進行分類非常重要。該研究通過讨論"解釋陷阱（EP）"的概念，揭示了人工智能解釋可能産生的意想不到的負面影響。對EP的操作和應對政策的解釋和見解可以幫助改善XAI系統的問責制和安全機制。

根據這項研究的結果，作者認為關于XAI有一些懸而未決的問題值得進一步讨論：

1. 如何制定有效的環保産品分類，以更好地識别和減少負面影響？2. 如何用不恰當的解釋來說明"陷阱"對現實世界的影響？3. 如何評估教育訓練過程以減輕"陷阱"可能的影響

最後，作者說，他們正在通過基本概念和應用，從人機互動到人工智能社群，進一步研究解釋陷阱。相信通過了解XAI系統中陷阱的位置、模式和原因，可以顯著提高人工智能系統的安全性。

雷 Feng.com

佐治亞理工學院：不要迷信解釋，小心被誤導

繼續閱讀

中國留學生開扒斯蒂文斯理工學院！那些你不知道的秘密

帝國理工學院更新校徽、停用校訓：不符合當下價值觀

美國佐治亞州發生襲警事件造成一名警員受傷

湖南理工學院：“穿搭際”研創團隊助力複工複産

帝國理工學院更新校徽、停用校訓：不符合當下價值觀

湯瑪斯·庚斯博羅 |《德文郡公爵夫人佐治安娜肖像》

廣州理工學院舉行揭牌儀式多個省級平台落戶

悲痛丨甯夏理工學院入伍學生張海軍，執行任務時犧牲，年僅25歲……

蘇黎世理工學院公開最新機器狗更加靈活可直立行走

遼甯理工學院呂品：努力踐行一名高校教師的職責和使命

“佐治亞-引導石”

美國撤銷對著名華人教授指控，麻省理工學院校長聲援陳剛

美撤銷對著名華人教授指控，麻省理工學院校長聲援陳剛

美撤銷對著名華人教授指控，麻省理工學院校長聲援陳剛

這麼黑深圳不好吧，[捂臉][捂臉][捂臉]！深圳除了财大氣粗，難道不剩下什麼了嗎？至少深圳的教育已經越來越厲害了，你看這

美國佐治亞州釣魚證指南