觀點丨劉永謀：AI對齊是一種危險的嘗試

劉永謀

中國人民大學國家發展與戰略研究院研究員

哲學院教授

OpenAI“宮鬥”大戲，讓AI“對齊”（alignment）一詞不胫而走。好多人認為，奧爾特曼這樣的邪惡資本代言人壓制堅持對齊的正義科學代言人蘇茨克維，我們要站在正義的一方。事實果真如此嗎？通過對齊操作，AI發展就能符合人們的需要、不背離人類的意圖了？真有這麼神奇嗎？

質疑AI對齊的可能

何為對齊？它是在機器學習，尤其是大模型技術發展過程中出現的。《人機對齊》一書認為，“如何防止這種災難性的背離——如何確定這些模型捕捉到我們的規範和價值觀，了解我們的意思或意圖，最重要的是，以我們想要的方式行事——已成為計算機科學領域最核心、最緊迫的問題之一。這個問題被稱為對齊問題（the alignment problem）”。也就是說，對齊意味着讓機器學習模型“捕捉”人類的規範或價值觀。

“捕捉”與“灌輸”相對，此時AI遵循的規範來自機器學習，而非工程師的程式設計輸入。通過大量學習人類行為，AI“搞清楚”人類行為規則，然後按照規則來行事。是以，對齊問題起碼可以一分為二，即對齊什麼和如何對齊。

在很多人看來，包括“AI發展的有限主義者”（強調AI發展的有限性和受控性），“對齊什麼”這一問題無法完全澄清。

首先，人類并沒有統一的價值觀。生活在不同的國家、地區，不同傳統、文化下的不同性别、階層的人，對同一現象存在不同的價值判斷。比如，面對新冠病毒肆虐，有的人認為保全生命最重要，有的人認為自由活動更重要。大模型究竟要學習誰的行動規則呢？

其次，人類的主流價值觀不斷在變化。比如，一百多年前一夫多妻制在中國流行，現在則屬于重婚的犯罪行為。那麼，我們要給大模型輸入什麼時間段的資料以供學習呢？

再次，規則存在應然與實然的偏差。比如，男女平等是社會提倡的價值觀，但在現實中性别歧視的現象并不少。如果AI學習真實案例，很可能成為性别歧視主義者。此類問題被稱為大模型的代表性問題，在實踐中屢見不鮮。

最後，有些AI如機器寵物狗，它應該與寵物狗對齊，而不是與人對齊。否則，它成了狗形人，擁有它并沒有養寵物的樂趣。換句話說，不是所有AI均需和人類對齊的。

是以，“對齊什麼”問題是“人類、社會和政治問題，機器學習本身無法解決”。對齊什麼的問題，本質上是以資料方法或統計方法厘清複雜的人類規則和價值觀的問題。

AI對齊的作用非常有限

從根本上說，上述質疑攻讦的是：道德哲學或倫理學未能完全解決的問題，大資料或統計學技術可能徹底解決嗎？的确，答案是否定的。但是，如同倫理學多少解決了一些價值觀問題，大資料技術對人類規則的學習也不是一點用處都沒有。在日常場景中，并非完全厘清人類價值觀，行動者（agent）才“知道”如何行動。

在多數時間中，AI隻需要以常見方式應對特定場合中的常見狀況。在自動駕駛研究中，經常有人以“電車難題”為例來分析。可是，人類駕駛者也極少面對此類高難度決策需要。無論是走“灌輸”還是“學習”路線，自動駕駛汽車均可以随機方案或直接刹車加以解決。重要的是承擔事故責任，而不是糾結于自動駕駛如何解決“電車難題”。

目前，機器學習模型主要采用模仿和推斷兩種方式來進行AI對齊。前者即看人類怎麼做，AI跟着怎麼做。模仿存在許多問題，比如過度模仿，很多人炒菜之前都會把袖子卷起來，AI可能會模仿這個不必要的動作。更重要的是，模仿的情境大緻差不多，但不可能絕對一樣，起碼時間、地點和對象不同。此時，AI需要對人類行為進行某種推斷，然後得出如何行動的結論。顯然，此類推斷很容易出錯，因為AI的推斷以資料和邏輯為基礎，而人類行為則摻雜非理性尤其是情感因素。

是以，有限主義者認為，AI對齊雖不是完全無用，但作用非常有限。

更重要的是，在人類社會中，大量情境應對是不确定的，無法提煉出某種一緻性的社會規則。此時，根本就談不上對齊，也不應該讓AI來處理，而應該交給人類來決策。如果讓AI不明是以地處理，可能導緻嚴重而不可逆的後果。并且，AI無法對自己的行為擔責，最後導緻“無人擔責”的荒謬情形。

總之，必須牢記：AI對齊非常有限，不可對它期望過高。不少研究者認為，對齊基本上沒有什麼用，不過是AI産業界抛出的又一冠冕堂皇的幌子。

制定規則必須靠人

在特定場合、特定任務中，無論是灌輸還是學習，讓AI行動符合人類需求都不難。困難的是所謂“通用AI”，因為無法預知它所“通用”的場景，因而既無法預先“灌輸”所有應對規則，又無法讓其及時“學習”到可靠的應對規則。正是試圖讓機器學習模型“通用”，才會出現所謂的AI對齊問題。很多人認為，AI不可能通用，它不過是專用的替代勞動工具。

是以，有限主義者認為，通用AI難以對齊，讓AI通用非常危險。顯然，它的危險不僅僅在于像ChatGPT一樣可能生成錯誤思想，将人類引入“後真相”的思想混亂中，更在于它與機器人結合起來，很可能導緻大量錯誤、危險甚至無可挽救的行動後果。有人擔心超級AI可能統治人類，可能我們更應該擔心的是，依賴沒有對齊的AI，世界會被搞得一團糟。

進一步思考，機器學習模型總結出人類規則，讓機器人按此規則行動，反過來會要求所謂的“AI輔助生存社會”中的人類适應機器的行動。由此，機器規則反倒成了人類規則，人得照着機器的要求活着。是以，“我們必須小心謹慎，不要讓這樣一個世界成為現實：我們的系統不允許超出它們認知的事情發生，它們實際上是在強制執行自己有局限的了解。”

如果将規則制定的權力完全交給機器，AI向人類對齊，演變成人類向AI看齊，其最終的結果，必然加速“人的機器化”，即人類失去靈性和自主性，日益成為智能機器的某種配件。

技術控制的選擇論者認為，無論何時，人類都要努力控制包括AI在内的所有新科技發展，使之有益于人類福祉。如果不确定AI的某一發展能否真正有益，就應該停止和轉變此種AI發展進路，此即我所謂的“AI發展的有限主義進路”。按照這一觀點，規則制定是人類的專屬權利，承擔所制定的規則導緻的責任和後果，而AI隻負責聽命于人類，執行人類的指令，而不能讓它“擅自”行事。

總之，AI對齊并不是資本與科學、正義與險惡的對峙，而是一種非常危險的嘗試。從這個意義上說，OpenAI“宮鬥”大戲是AI圈子又一次高品質的“AI宣傳術”操作。當大家擔憂AI的野蠻生長可能會偏離滿足人類需求的目标時，“AI對齊”給公衆一個印象：該問題完全可以通過對齊來解決的。

文章來源：《社會科學報》

微信編輯：張菁菁

人大國發院是中國人民大學集全校之力重點打造的中國特色新型高校智庫，現任理事長為學校黨委書記張東剛，現任院長為校長林尚立。2015年入選全國首批“國家高端智庫”建設試點機關，并入選全球智庫百強，2018年初在“中國大學智庫機構百強排行榜”中名列第一。2019年在國家高端智庫綜合評估中入選第一檔次梯隊，是唯一入選第一檔次梯隊的高校智庫。

人大國發院積極打造“新平台、大網絡，跨學科、重交叉，促創新、高産出”的高端智庫平台。圍繞經濟治理與經濟發展、政治治理與法治建設、社會治理與社會創新、公共外交與國際關系四大研究領域，彙聚全校一流學科優質資源，在基礎建設、決策咨詢、公共外交、理論創新、輿論引導和内部治理等方面取得了顯著成效。人大國發院以“中國特色新型高校智庫的引領者”為目标，紮根中國大地，堅守國家戰略，秉承時代使命，緻力于建設成為具有全球影響力的世界一流大學智庫。

觀點丨劉永謀：AI對齊是一種危險的嘗試

繼續閱讀

虛驚一場！曝鄭智受劉永灼牽連被抓，冉雄飛辟謠正在備戰亞洲杯

國家最高獎獲得者劉永坦院士介紹

劉永彬任新職

演員劉永：一婚“殺妻”，二婚家暴，三婚吃嫩草，如今獨自帶兩娃

新希望集團董事長劉永好：對促進民營經濟高品質發展的三點建議

富豪劉永好：因給地主少爺陪讀進入大學，結婚後對待結發妻惹人羨

正能量：梅龍高速英雄劉永缙徒手救出6人！

48人遇難！廣交鄧董事長差3個月退休！有個好人叫劉永缙……

梅大高速奮勇救下6人的劉永缙，收到了當地上司們的慰問金和鮮花

鬧大了！司機劉永缙救出6人。而網友表示自己救了13人，評論炸鍋

勇救塌方被困者：劉永缙的英勇事迹

坍塌高速冒險連救6人消失的英雄找到了，叫劉永缙是一名榮民

英雄的名字，劉永缙！

劉永也是正統漢宗室後裔，為什麼那麼不經打？

劉永傑——2024年中歐書畫名家國際藝術線上交流展