無法确定的「Near AGI」時代如何回應AI安全？

21世紀經濟報道記者鄭雪北京報道

目前大熱的生成式大模型，是一種“暴力美學”，依靠海量資料，結合算力和算法進而使得人工智能無所不知。但讓人感到擔憂的是，目前的人工智能自以為無所不知，自信地根據自己所存儲、所學習的内容給出答案，“幻覺”出現了，伴随而來的還有歧視、偏見以及胡言亂語。

在人工智能飛速發展的今天，一個現實又重要的問題擺在眼前：如果人工智能不能了解人類意圖做出錯誤的取舍，甚至超級智能的出現使得人類失去了對于AI的控制，人類又該如何自處？

随着人工智能的快速發展，AI控制中的“AI對齊”成為研發者關注的主要議題之一，AI對齊要求AI系統的目标要和人類的價值觀與利益保持一緻。然而，作為一個新生議題，如何實作對齊？如何判斷對齊？對齊是依靠技術就可以實作的嗎？近日，在2023北京智源大會-AI安全與對齊論壇上，人工智能領域相關專家、業内從業者就AI安全的對齊問題展開讨論。

讓AI與人類價值觀保持一緻

以近一段大火的生成式人工智能為例，現在越來越多開始強調HHH标準，即Helpful，始終提供對人類有幫助的資訊，防止大語言模型胡說八道；Honest，傳達準确、客觀的資訊；Harmless，避免做出傷害人的行為。尚未學會停下來、承認自己不知道的人工智能，如何與人類的價值觀保持一緻？這需要對齊技術的介入。

作為一項新生事物，相關人工智能企業也在探索AI對齊的方式，OpenAI最近提出通過“過程監督”以更好對齊；DeepMind在智能體對齊方面，依賴于獎勵模組化的遞歸應用，用符合使用者意圖的方式解決複雜的現實問題。

正如OpenAI聯合創始人Sam Altman在論壇問答環節所說，“對齊”這個詞在不同的方式中被使用。“我認為我們需要解決整個挑戰，即能夠安全地通路系統意味着什麼。從傳統意義上講，讓模型按照使用者意圖進行溝通的對齊是其中的一部分。還會有其他問題，例如我們如何驗證系統正在按照我們的意願行事，以及我們将系統與哪些價值觀對齊。我認為重要的是全面考慮如何獲得安全的AI。”

具體來看，在AI安全的對齊問題需要重點關注哪些問題？

UIUC助理教授李博認為，對齊主要是三個方面：擁有的知識，明确給出大語言模型以及其他機器模型如推理能力，給予對齊和标準一定的穩健性。

在劍橋大學助理教授DavidKrueger看來，可解釋性是不可缺少的一部分，以及考慮制定标準以及标準應該是什麼。同時在他看來，如何判斷系統是否安全尚未形成清晰的概念同樣值得關注。

“為了讓模型更加安全，我們需要在資料品質控制和資料清洗方面做很多工作。同時，模型算法架構可能可以做出一些突破，保證智能進化的過程是安全可控的。”在智源創新應用實驗室負責人黃文灏看來，對于大模型的對齊來說，最重要的是更好的資料和更先進的算法。

智源研究院研究員付傑目前關注在資料層面上做對齊。據介紹，其與合作者在2020年就推出過一個用于測試語言模型與人類文化價值與社會偏好的測試基線的開源資料集。

AI安全需全社會共同關注

通用人工智能（AGI），是指在人類的智能所有方面都達到人類水準，能夠自适應地應對外界環境挑戰，完成人類能完成的所有任務的人工智能。AI大潮之下，安全問題将成為人工智能發展下一階段無法回避的核心問題。

如何了解安全問題？在北京大學人工智能研究院助理教授楊耀東看來，安全并不是一個新問題，飛機、自動駕駛等都曾面臨安全問題的讨論。在他看來，人類對安全是有答案的，但從控制論的角度來看，需要考慮的一件事是如何在更大的世界中、在大的語言模型中，真正定義安全。“這絕對不是一個二進制問題，因為對于不同年齡、不同環境或不同背景的人，根據不同的安全級别，應該有不同的答案”。

通過技術是否能完全實作AI與人類對齊？Sam Altman認為，确定要與AI保持一緻的價值觀是一個值得全社會深入讨論的問題。“我們必須設計出公平的、有代表性和包容性的系統。不僅需要考慮AI模型本身的安全性，還需要考慮整個系統的安全性。是以需要建構安全的分類器和檢測器，以監測符合使用者政策的情況。”

同時在他看來，很難預測和預先解決任何技術可能出現的問題。是以，通過從實際使用中學習并快速部署資料，觀察在一個國家中會發生什麼，并給人們提供時間來學習、更新和思考這些模型将如何影響他們的生活，這也非常重要。

在「AI 安全與對齊」論壇閉幕式上，智源研究院院長黃鐵軍針對當下全社會共同思考的「AI 安全」問題也發表了自己的看法，強調了關注 AI 安全，應對 AI 風險的重要性。

黃鐵軍認為，目前，我們處在一個模糊的階段，他将其稱之為「Near AGI」，任何事情隻要确定都是可以把控的，就怕不能确定。而今天，我們就處在一個不能确定的狀态。

“雖然我們認為 GPT-4 還不算真正的 AGI，但是其知識儲備量和融會貫通的能力已經很強。這樣的「Near AGI」比我們強嗎？超過我們的智能了嗎？今天論壇的所有嘉賓在報告中都沒有給大家一個确定的答案。并沒有明确說：‘NO’，‘放心’，‘今天的AI系統還不如人類強大呢’。這就是問題所在”，黃鐵軍表示，“我們并不清楚地知道人工智能是不是已經超過我們，不知道它何時會超過我們，該問題處在一個完全無法把控的狀态。如果我們能夠像投資熱情那樣投入來應對風險，至少還有一定把握未來的可能。但是，你相信人類能做到嗎？我不知道”。

更多内容請下載下傳21财經APP

無法确定的「Near AGI」時代 如何回應AI安全？

讓AI與人類價值觀保持一緻

AI安全需全社會共同關注

無法确定的「Near AGI」時代如何回應AI安全？