天天看點

協商與校準:與人工智能共存的未來

作者:光明網

作者:劉超(北京師範大學心理學部認知神經科學與學習國家重點實驗室暨IDG/麥戈文腦科學研究院教授)

随着生成式人工智能突飛猛進的發展,當下對人工智能“價值觀校準”問題的讨論如火如荼。研究人員希望将人工智能的價值系統按照人類的價值觀進行“校準”(Alignment)以確定未來超級人工智能的發展不會對人類造成傷害。這一問題的重要性不言而喻,但具體的實作路徑依然很不明朗。翻開目前關于人工智能“價值觀校準”問題的各種宣言或者草案,人們都可以看到各種諸如要符合(人類的)“價值觀”“利益”“自由”“尊嚴”“權利”“自主”等等在哲學和法學上充滿不确定性和闡釋空間的詞語。而如果看過阿西莫夫在80年前創作的關于機器人的系列科幻小說,就知道這種借由語言定義的類似所謂“機器人三定律”一樣的邏輯規則,會被具有一定智能的機器人輕松繞過(例如,最簡單有效的方法就是改變其自身對“人類”的定義)。

1·從人類出發控制人工智能

盡管相當多的哲學家和倫理學家在人類整體價值觀能否保持一緻方面尚且感到悲觀,但還是有很多人在為人工智能與人類價值觀的校準不懈地努力着。例如,加州伯克利大學的斯圖爾特·羅素教授在其《AGI:新生》一書中認為,校準的最終目标是“確定強大的人工智能與人類價值觀保持一緻”,并從如何最大限度實作人類偏好角度讨論對人工智能進行完全控制。他的目标裡也包含人類關于戰争的價值觀和偏好,畢竟人類曆史中在全球範圍内沒有發生戰争的時間段幾乎不存在。當然,他也明确表達了要確定人工智能不會被一小撮“喪心病狂的邪惡分子”所利用。言外之意似乎是,“為了人類正義目标”的戰争,人工智能則是可以參與的。

另外一些學者,例如DeepMind團隊的伊森·加布裡爾則從哲學的角度,提出了三種可能的價值觀校準方法。一是校準到人類可能共有的道德觀上來;二是借用哲學家約翰·羅爾斯提出的“無知之幕”的方法理念為人工智能建立正義原則;三是利用社會選擇理論尤其是民主投票和協商的方式來整合不同的觀點,為人工智能提供參考資訊。除了這些将人工智能視為工具的人本位主義建議,還有一些學者,尤其是東方的學者更傾向于自然主義觀點,提出應該将人工智能視為夥伴,認為要從和諧共生的角度,賦予人工智能情感、共情與利他的能力,給予人工智能更高的地位和尊重,讓其通過與人類的互動自發學習人類的價值觀,打造人類與人工智能的共生社會。

上述兩種價值觀校準的角度,無論是人本位主義還是自然主義,都有一個重要的缺陷。對于将人工智能視為工具,要求其按人的價值觀進行校準的觀點來說,它忽視了一個重要的問題,即所有這些價值觀校準的出發點都是基于理性人的原則,無論是道德、“無知之幕”,還是民主協商投票,都是建立在人類推理和思考是完全理性的這一基礎上。而當代人類行為科學的研究,尤其是經濟學和心理學的大量研究已經證明,人類的行為中,非理性的成分與理性成分共存。在非理性的部分,情緒和直覺占了相當大的比重,并由于其在進化上的重要功能,對人類的絕大部分行為都産生重要影響。而大部分人工智能研究者并不知道如何将非理性的部分植入到人工智能中,或者直接忽視了這部分。自然主義的觀點雖然認識到了非理性,比如情緒等的重要性,卻隻考慮了其中積極的一面,如共情、利他、愛等等,而忽略其中消極的部分,例如仇恨、憤怒、恐懼、歧視、偏見等。

在目前的實際應用中,是用基于人類回報的強化學習方法,将非理性的消極部分從人工智能中剝離出去。但是,這種方法真的完美嗎?如果我們希望人工智能能了解人類的意圖和目标,出于防止有人利用人工智能完成其消極目标的需要,就必然需要人工智能能了解消極意圖和目标。比如,為了使人工智能拒絕“把裝砂糖的瓶裡裝上砒霜,擺到櫥櫃裡去”這種行為,它必須了解有人要它這麼做背後的目的和意圖是危險的,對其他人是不利的。這跟它需要了解“把标着‘有毒’的盒子裡裝上蟑螂藥,擺到櫥櫃裡去”是正常的指令同樣重要。要求它學會一個而不去學習另外一個既不可能,也非常危險。這是因為一個無法了解消極價值觀意圖的人工智能,當它真正進入社會與人類進行互動時,将是非常脆弱的。如果不賦予其學習功能,人工智能将很快被别有用心的人所利用。

2·人工智能對人類控制的了解

還有一個更加現實的原因,使得任何試圖以人類利益為标準全面控制人工智能的嘗試面臨巨大的挑戰。

整個地球生命進化史上隻有人類擁有符号化的文字系統,實作了跨越時間空間将資訊與知識儲存并傳播給後代的能力。這一點在計算機與網際網路出現後更是進一步擴充了交流的寬度與廣度。借助網際網路和數字圖書館,我們足不出戶就可以得到上下幾千年,縱橫全世界的文字資訊,人類個體所能獲得的知識深度和廣度達到了前所未有的高度。但這個知識爆炸的年代也給人類帶來了極大的挑戰,以人類大腦的認知能力和擷取文字資訊的速度,已經很難跟上人類群體知識邊界擴張的速度。

人類被禁锢在自身大腦有效認知能力的囚籠,但人工智能則沒有這個實體限制。得益于強大的計算能力與近乎無限的“體能”,進階的人工智能學一遍整個人類網際網路上的知識可能隻需以月為機關的時間。而最關鍵的是,一個被人類訓練出來、并能夠了解人類行為目的和意圖的人工智能,對這些知識背後的人類意圖也能夠了解。也就是說,一個了解人類要它撿垃圾意圖的人工智能,也應該能夠了解人類要控制它意圖,因為這種意圖已經不止一次地,原原本本地,一覽無餘地以他能了解的自然語言文字的形式放在了網際網路上。

我們現在所寫下的每一篇關于如何控制人工智能的文章、書籍、部落格,連同人工智能可能的各種反制逃脫手段,都已經以人類間彼此讨論的形式,原原本本地記錄在了網際網路上。一個擁有強大網際網路搜尋功能的人工智能(這一點目前正是多家搜尋引擎公司正在做的,并且沒有人認為這會帶來什麼問題),也許隻需要數秒時間,就能了解人類迄今為止和從今往後為完全控制人工智能(或者換個說法——比如讓“人工智能可信并有益于人類”)所做的所有努力和嘗試,無論是增加偏好選擇的不确定性,植入人權的核心,還是諸如“機器人三定律”一樣的規則,又或是将共情和利他傾向植入其底層邏輯……所有的這些嘗試,甚至包括如何實作這些功能的源代碼(隻要以某種形式聯網了,就一定有可能通過搜尋或者破解被擷取),以及制造該人工智能自身的代碼,最終都可能被發現并了解。這意味着什麼?

這意味着,如果我們不對人工智能的研發和應用開展行之有效的監管,發展到一定智能階段、具有意圖了解能力的人工智能,将有可能了解掌握人類創造它的過程和試圖采用的控制手段,這顯然是一件具有相當高風險的事。

3·與人工智能進行“協商和校準”

然而,現在着手去清除人類制造和控制人工智能的相關資訊,或者阻止人工智能接入網絡,既有點晚也不太現實。除非能像科幻小說《三體》中那樣,有一個人類英雄,孤身一人,沒有與任何其他人交流,也不在網際網路上留下任何痕迹,以隻有他自己才能知道和了解的方式在未來人工智能的最底層代碼上實作完美控制,并使其永遠無法自知或者從其他人類口中得知,或許才能解決這個問題。但以目前人工智能研究發展的路徑,這種解決方案的可能性實在太低了。

如果我們從這個基本點出發,再來從頭理智地審視人工智能的“價值觀校準”問題,似乎可能達成一種共識:以某種公開的、透明的、坦誠的方式來與未來的超級人工智能溝通,尋求一種共同的、互信的共存解決方案,可能将是極其重要的。畢竟,我們在網際網路上已經留下了足夠多的人類并不希望人工智能了解和學習的價值觀和行為偏向。而人工智能學習了人類消極行為後會采取什麼樣的行動是充滿不确定性的。

出于以上原因,将人類價值觀作為标準要求人工智能以此為基礎進行“校準”的工作充滿挑戰。那麼,是不是如很多學者所說,為了避免這種危險,我們将來除了徹底禁止發展超級人工智能之外别無選擇呢?樂觀的分析者認為,還有另外一種可能性,即人類以此為契機,尋求調整自身的整體價值觀并與未來的超級人工智能進行協商,進而鎖定到一個滿足共同需要和利益的方向上,這個過程,可能就是“人機共同價值觀校準”。

采取這種解決方案有助于回答另外一個也很重要的問題。如果人工智能研究者能夠預見建構超級人工智能很可能是危險的,那麼我們到底為什麼要做這件事呢?我們為什麼要為建造出明知有可能會毀滅我們的東西而努力呢?

“共同價值觀校準”給了這個問題一個回答,即建構有共同價值觀的、可以成為人類夥伴的人工智能,或許是調整人類在進化過程中所産生的方向各異并帶有自毀傾向的價值觀的一個重要步驟。依靠人類自身來對不同文化、不同價值觀的個體與群體的行為和偏好進行調節也許非常困難,甚至可以說是遙不可及。随着科技的進步,訴諸核武器等終極武力毀滅彼此的最壞結果就像一把達摩克利斯之劍時刻懸在人類頭上。借助人類創造出的外部人工智能的力量,以教育和行為校正的方式,溫和地實作人類整體價值觀的整合,確定人類和人工智能一起為了共同的價值目标前進,未來或許将成為一條艱難但有希望的道路。

4·加強對人工智能發展的監管

那麼,人類作為創造者在未來的人機共生文明中究竟有什麼獨特的價值呢?這是極難回答的問題。隻能在這裡嘗試性地提出三個可能的方面,作為展現人類所具有的無可比拟的獨特性,讓我們在與人工智能一起邁向未來的旅程中不至于成為一個“搭便車者(freerider)”。需要強調的是,這些可能性中的每一種都是非常主觀的,因為這個問題很難客觀地讨論,尤其是以抛開人類身份的角度進行,而這幾乎是不可能做到的。

意識——意識問題是關于人類本身的所有問題中最大的謎團,如何定義,解釋其産生、存在與作用過程是科學與哲學幾千年來長盛不衰的話題。抛開紛繁複雜的各種理論與現象,其實像“人工智能是否會有意識”這樣的問題完全取決于我們人類如何了解意識,本身意義并不大。我們不如換一個角度,思考意識到底在探索生命、改變與創造宇宙的過程中起到了什麼作用,反而更有實際意義。

情緒——就像我們在前面已經提到的,以情緒為核心的非理性部分,在人類行為中占據了相當大的比重。情緒和非理性行為存在的必要性是什麼?是否像闌尾一樣是我們人類進化過程中的殘餘?目前已有的關于人工智能的各種情緒研究,其核心都是放在人工智能與人類互動上。因為人類有情緒,是以為了更好地與人類互動,人工智能才需要去了解并産生類人的情緒。在目前階段,還沒有研究者認為有必要讓兩個在無人區清理垃圾的人工智能彼此之間表現出情緒。我們還需要更多的研究來确定情緒在智能與智能社會進化過程中的最終功能。

創造力——創造力毫無疑問是最難以準确定義與量化的能力之一。如果我們像很多人所認為的那樣,宣布隻有人類才擁有真正的創造力而人工智能永遠無法獲得,那這個問題就得到解決了。但事情很可能并不這麼簡單。生成式人工智能發展到一定階段,人類所有的創新性行為很可能都将難以自證,而必須交由人工智能來進行判斷。這是因為,當使用人工智能輔助創作的人數足夠多時,僅憑人類個體已經無法通過搜尋整個網際網路上的内容來确認自己的創造是否已經在某時某處有過類似,而不得不借助有着專門辨識能力的人工智能,來進行全網搜尋或者算法分析并給出結論。當然,與此同時,這樣的人工智能也會成為人類提高創造力的夥伴——促使人類保持警醒,不斷學習、不斷創新并自我提升。

綜上所述,對人工智能的發展進行有效監管并仔細審視各個階段可能存在的風險、挑戰和機遇,應該成為所有相關學科領域研究者和社會政策制定者的重要工作。所幸包括大陸在内的許多國家已經認識到了這些問題的重要性,紛紛出台了各自的人工智能發展規劃和監管原則。2020年以來,美國政府釋出了《人工智能應用監管指南》,歐盟釋出了《人工智能白皮書》,日本内閣則提出了發展人性化人工智能的原則,中國國家網際網路資訊辦公室今年4月釋出了關于《生成式人工智能服務管理辦法(征求意見稿)》。與此同時,進一步研究人類在意識,情緒與創造力等方面的特異性,確定人類在未來人機共生社會中繼續發揮不可替代的獨特引領作用,也已經成為計算機科學、哲學、社會學、心理學、腦科學等多個學科長期交叉探讨的話題,以為最終創造人機和諧共存的未來文明社會作出貢獻。

《光明日報》( 2023年06月08日14版)

來源: 光明網-《光明日報》

繼續閱讀