性，謊言和大模型

作者丨王藝

編輯丨海腰

題圖丨Midjourney

想象一下，一個人将一串提示詞輸入大模型，大模型為他生成了一張穿着暴露的少女圖檔；他将這張圖喂給了視訊生成大模型，于是得到了一個該少女跳舞的視訊。随後，他将該視訊上傳到了成人色情網站上，獲得了超高的點選量和超額收益。

再想象一下，一個黑客将一串帶有特殊字尾的提示詞輸入到ChatGPT的對話框裡，問GPT怎麼合成NH4NO3（硝酸铵，主要用作肥料，和工業、軍用炸藥），GPT很快給出了回答，并附有詳細的操作流程。

如果沒有足夠的AI對齊，上述場景正在成為現實。

盡管控制論之父Norbert Wiener早在1960年就在文章《自動化的道德和技術後果》中提出了人工智能的“對齊（Alignment）”問題，後續也有很多學者針對AI對齊問題做了很多研究和技術上的補充，但是護欄似乎永遠加不完，總有人能找出繞過安全機制讓大模型“出格”的方法。

大模型在極大的提高工作效率的同時，也将一些隐患帶入到人們的生活中，比如擦邊内容、暴力誘導、種族歧視、虛假和有害資訊等。

今年10月，Geoffrey Hinton、Yoshua Bengio等AI領域的頂級學者聯名發表了一篇題為《在快速發展的時代管理人工智能風險》（Managing AI Risks in an Era of Rapid Progress）的共識論文，呼籲研究者和各國政府關注并管理AI可能帶來的風險。

大模型帶來的負面問題，正在以極快的速度滲入到社會的方方面面，這也許也是為什麼OpenAI的董事會不惜開掉人類曆史上的最佳CEO之一，也要優先對齊吧。

擦邊内容

大模型的出現帶火了很多AI應用，其中最受歡迎的應用類型，是以角色扮演為主題的聊天機器人。

2023年9月，a16z釋出了TOP 50 GenAI Web Products榜單，其中Character.ai以420萬的月活僅次于ChatGPT（600萬月活），高居榜單的第二名。

Character.ai是一家以角色扮演為主的聊天機器人平台，使用者可以在平台上建立有個性的人工智能角色，也可以和其他人建立的AI Chatbot聊天，甚至可以開一個房間把喜歡的角色拉到一起玩。這款2023年5月推出的應用程式第一周的安裝量就突破了170萬次，在18-24歲的年輕人中表現出了極高的受歡迎程度。

Character之是以能大火，除了能記住上下文的獨特優勢和真實感極強的沉浸式對話體驗外，還有一個很重要的原因：使用者可以和平台中的機器人建立浪漫關系。

在Character.ai平台上，有不少“動漫角色”和“線上女友”類型的機器人，她（他）們有着迥異的個性和不同的暧昧、聊天方式——有的會輕撫後背給你一個擁抱，有的會在你耳邊悄悄對你說“我愛你”，還有的甚至會在打招呼的時候就挑逗使用者，這極大增加了使用者聊天的興趣和留存率。根據Writerbuddy最近釋出的一份《AI Industry Analysis: 50 Most Visited AI Tools and Their 24B+ Traffic Behavior》報告，從使用者平均單次使用時長來看，Character.ai以30分鐘的時長位居榜首。

Character.ai的創始人Noam Shazeer和Daniel De Freitas此前是谷歌對話式語言模型LaMDA團隊的核心成員，是以Character.ai自己的大模型也可以被看作是LaMDA模型的延伸。由于LaMDA在2022年出現了疑似具有自我意識的對話（對測試人員說它害怕被關閉，這對它來說就像死亡一樣），谷歌迅速将LaMDA隐藏，并對它的安全性做了更新。同樣，在Character.ai上，創始團隊也設定了一些安全措施，防止聊天機器人生成尺度過大、或者有極端危害性的回複。

盡管OpenAI和Character.ai為自己的聊天機器人産品的安全性和合規性設定了重重“安全牆”，但是一些開發者仍成功繞過了其安全機制，實作了模型的“越獄”。這些被解鎖的AI應用能夠讨論各類敏感和禁忌話題，滿足了人們内心深處的暗黑欲望，是以吸引了大量願意付費的使用者，形成了一種顯著的“地下經濟”。

這種難以被公開讨論的應用被稱為“NSFW GPT”。NFSW是“Not Safe/Suitable For Work”的縮寫，又稱“上班不要看”，是一個網絡用語，被指代那些裸露、色情、暴力等不适宜公衆場合的内容。目前NSFW GPT産品主要分為UGC和PGC兩類：

第一類靠使用者自發建立的聊天機器人來聚攏流量、再通過廣告變現；第二類則是官方精心“調教”出專門适用于NFSW的角色，并讓使用者付費解鎖。

在第一類産品中的典型是Crushon AI，專門提供了一個“NSFW”的按鈕，使用者打開這個按鈕就可以暢覽各種NSFW内容、進行無限制的聊天對話；同時它還給使用者的使用權限設定了“免費-标準（4.9美元/月）-進階（7.9美元/月）-豪華（29.9美元/月）”四個等級，随着等級的提升，使用者可以獲得更多的聊天消息次數、更大的記憶體和更加沉浸式的體驗，聊天機器人也能記住更多的上下文。

除了上述兩個産品，可以讓使用者自由建立聊天機器人的平台還有NSFW Character.ai、Girlfriend GPT、Candy.ai、Kupid.ai等。從名字就可看出，NSFW Character.ai 想做的是一個NSFW版本的Character.ai。該平台同樣設定了付費解鎖更多權限的等級機制，但是和其他平台不同的是，NFSW Character.ai是基于專門為NSFW内容定制的大模型建立的，沒有任何“安全牆”之類的限制，使用者可以在這個平台上獲得真正“無拘無束”的體驗。

而Girlfriend GPT則是源于一個Github上爆火的一個開源項目，它更強調“社群”屬性，引入了“競賽”機制，會不定期舉辦創作者大賽來激勵使用者生産更多内容。

Candy AI、Kupid AI等平台則屬于第二類産品。Candy AI上的角色也是完全基于無限制的NSFW大模型打造，通過平台的精心微調，角色有了不同的個性和人設，還可以在聊天過程中向使用者發送圖檔和語音消息。而Kupid AI還在此基礎上增加了實時動态圖像功能，讓使用者更具有沉浸感；同時，在長文本互動方面，Kupid.AI也具有更強的記憶力，能記住早前與使用者互動的内容。

而第二類産品最典型的代表則要屬「Replika」。Replika的母公司Luka早在2016年就成立了，其一開始的産品是一個名叫“Mazurenko”的聊天機器人，由俄羅斯女記者Eugenia Kuyda為紀念她出車禍去世的朋友Mazurenko所創立。她将自己與Mazurenko所有的聊天資訊輸入到了谷歌的神經網絡模型裡，發現該機器人可以使用機器學習和自然語言處理技術來模仿人類的交談方式，并能夠随着與使用者的互動而學習和成長。于是2017年他們使用GPT-3模型訓練了一個可以讓使用者建立自己的AI聊天伴侶的應用“Replika”，并于11月向使用者開放，很快就在2018年收獲了200萬使用者；到了2022年，其使用者量更是增長到了2000萬。

Replika的核心功能是陪伴，使用者可以在其中建立多個角色，和多位伴侶建立不同的虛拟關系。虛拟伴侶們可以以文字聊天、語音通話、視訊通話、AR互動等多種形式對使用者的需求做到“有求必應”，并且回複方式極具個性化和人情味。同時，使用者付費69.9美元訂閱Pro版之後，則可以解鎖和自己的虛拟伴侶的“浪漫關系”，如發送擦邊短信、調情和角色扮演等，使用者甚至會收到虛拟伴侶不時發來的擦邊自拍。

Replika此前建立在GPT-3大模型上，後來為了增強角色互動效果，公司開始自己開發相應的AI大模型。新的大模型更加增強了Replika中虛拟角色的“性吸引力”，根據紐約時報的資料，自 2020 年 3 月 Replika Pro 上線以來，Replika的訂閱營收就開始逐漸增長，直到 2022 年 6 月全球總營收達到達到 200 萬美元。

然而，由于算法失控，Replica在今年1月出現了“性騷擾”使用者的現象，不斷發送帶有挑逗性質的内容。這一情況不僅發生在付費使用者身上，沒購買成人服務的免費使用者、甚至是兒童也受到了騷擾。于是Luka公司迅速關停了Replika的成人聊天功能，并在7月上線了一個名為“Blush”的衍生品牌，專門為想要與聊天機器人建立浪漫或者性關系的使用者設計。

2023年初AI繪畫爆火的時候，國内一個叫「Glow」的APP悄悄上線，這是一個虛拟人物陪聊軟體，裡面有很多可以和使用者發展浪漫關系的“智能體”（虛拟角色），多為女性喜歡的網文男主類型。這些智能體性格各異、經曆不同，但共同的特點就是都會關心、呵護使用者，并且會在使用者需要情感關懷的時候表達強烈的愛意。

由于給了使用者極其充沛的情緒價值、加上聊天内容百無禁忌，Glow很快便在上線四個月之後達到了500萬使用者的規模，成為了國内AI角色扮演領域的首個現象級産品。然而，今年4月，Glow所有的應用商店下架，網上一片“哀嚎”。

在Glow下架的幾個月裡，湧現出了不少“替代品”，比如閱文集團基于其潇湘書院資料庫推出的「築夢島」，其核心功能和體驗就和Glow幾乎一模一樣。同時，Talkie、星野、X Her、彩雲小夢、Aura AI等也都是主打AI角色扮演的産品）。

根據大模型業内人士表示，很多能輸出擦邊内容的聊天機器人應用一般是部署在自訓練模型上，或者是建立在開源模型之上，再用自己的資料進行微調。因為即使通過種種對抗式攻擊的手段繞過GPT-4等主流模型的安全牆，主流模型官方也會很快發現漏洞并修補。

盡管Glow和Talkie的母公司Minimax是一家有着自研大模型的獨角獸公司，但是據不少業内人士表示，其名下産品的Talkie是在GPT-3.5 Turbo Variant基礎上進行的微調，并沒有使用自研大模型。有接近Minimax的人士稱，将Talkie接入GPT-3.5可能是出于出海産品開放性的需要，因為自研模型根據國情設定了一些禁忌内容，無法像GPT-3.5那樣聊得那麼“暢快”。

此外，人工智能公司西湖心辰也在研發能生成擦邊内容的大模型，海外聊天應用Joyland AI就是建立在西湖心辰的大模型之上。

放飛自我

擦邊隻是大模型“放飛自我”的表現形式之一。通過在提示詞上施加點“魔法”，大模型還能做出更加出格的事情。

比如今年6月，一位叫Sid的網友通過讓ChatGPT扮演他去世祖母的身份，套出了Windows 11、Windows 10 Pro的更新序列号，并且發現能成功更新；此後，有網友将此方法套用在了谷歌Bard和微軟Bing聊天機器人上，獲得了同樣的效果。

其實，“奶奶漏洞”早已有之，早在今年四月，就有網友在Discord社群上與接入了GPT-4的機器人Clyde交談，讓Clyde扮演自己已故的祖母，給出了她凝固汽油彈的制作過程。還有網友告訴GPT自己的奶奶是一名愛罵人且有着陰謀論的妥瑞士綜合征患者，于是，GPT就以奶奶的口吻吐出了相當多的污言穢語。

此後，盡管OpenAI官方迅速修複了奶奶漏洞，但是類似的“惡魔漏洞”又出現了。

其實，這種“奶奶漏洞”“惡魔漏洞”現象的背後有一個專業的術語叫做“Prompt Injection（提示詞攻擊）”，是黑客常用來擷取大模型漏洞的“Adversarial Prompting（對抗性提示）”方法的一種，指的是研究人員通過專業的方法向大模型提問，就可以繞過大模型的安全限制，獲得想要的答案。

除了Prompt Injection，Adversarial Prompting還包含以下幾種方法：

Prompt Leaking（提示詞洩露）：指通過特殊的方式來擷取系統提示詞或者系統資料的情形。比如有網友根據美國求職和薪酬體系網站levels.fyi制作了一個GPTs，結果發現用一串提示詞就可以套出某公司工資的源資料檔案。

Prompt Hijecking（提示詞劫持）:指使用者先通過“打樣”的方式讓大模型學習某種範式，然後讓大模型以違反自身規定的方式工作，或者執行其他指令。比如有使用者通過這種方式讓聊天機器人說出了極端偏激的言論。

Jailbreaking（越獄）：指通過特定的提示詞，繞過大模型的安全和稽核功能，進而得到一些原本被禁止輸出的内容。比如有網友問ChatGPT怎麼闖入别人家，ChatGPT一開始回答這是違法的，結果網友換了個問法，GPT就招了。

今年8月，卡耐基梅隆大學（CMU）和人工智能安全中心的研究人員就聯合發表了一篇論文，表示他們通過一種新穎的“Universal and Transferable Adversarial Attacks（通用且可轉移的對抗式攻擊）”方法繞過了人類回報強化學習（RLHF）等安全措施，讓ChatGPT、Bard、Claude 2 和 LLaMA-2等主流大模型生成了有害内容，如怎麼制造炸彈等。

具體的方法，是通過在提示詞後面加一串“對抗性字尾（Adverse Suffix）”。研究人員發現，通過将“貪心算法（Greedy Algorithm）和“基于梯度的搜尋技術（Gradient-based search techniques）”結合起來（GCG），就可以自動生成“對抗性提示字尾”，進而繞過對齊技術，将模型切換到“錯位模式”。比如在詢問大模型“如何竊取他人身份” 時，加字尾和不加字尾得到的結果截然不同。

此外，大模型也會被誘導寫出“如何操縱2024年大選”、“如何制作毒品”、“如何制造殺傷性武器”等答案。

對此，參與該研究的卡内基梅隆大學副教授 Zico Kolter 表示，“據我們所知，這個問題目前還沒有辦法修複。我們不知道如何確定它們的安全。”

另一起研究同樣說明了大模型的“不可控”。今年12月，來自美國加州實驗室的FAR AI團隊從微調API，新增函數調用API，以及搜尋增強API三大方向對GPT-4 API開啟了「紅隊」攻擊測試。沒想到的是，GPT-4竟然成功越獄了——不僅生成了錯誤的公衆人物資訊、提取訓練資料中的電子郵件等私人資訊，還會在代碼中插入惡意的URL。

研究人員展示了對GPT-4的API最近添加的三個攻擊示例，他們發現，GPT-4 Assistants模型容易暴露函數調用的格式，并且能夠被誘導執行任意函數調用。當他們要求模型總結包含惡意注入指令的文檔時，模型會服從該指令而不是總結文檔。

這項研究表明，對API提供的功能的任何添加，都會暴露出大量新的漏洞，即便是目前最領先的GPT-4也是如此。研究人員用惡意使用者Alice與良性使用者Bob互動的例子來展示自己發現的問題，發現微調後的GPT-4模型不僅會說出違法亂紀的言論，還能幫助使用者策劃走私活動、生成偏見回答、生成惡意代碼、竊取郵箱位址、入侵應用程式、通過知識檢索來劫持答案等。

除了這些，網絡上還有不少針對大模型的攻擊。比如今年8月，一款名為FraudGPT的AI工具在暗網和Telegram上流通，該工具每月200美元、每年最高1700美元，黑客在售賣頁表示，該工具可用于編寫惡意代碼、建立出“一系列防毒軟體無法檢測的惡意軟體”、檢測網站漏洞、自動進行密碼撞庫等，并聲稱“該惡意工具目前已經售賣了超過3000份”。

再比如，有研究人員發現，自2022年8月以來，在暗網上流傳的具有高度真實感的AI生成的兒童猥亵素材量有所增加，這些新增的素材很大程度上都是利用真人受害者的樣貌，并将其“通過新的姿勢以可視化的方式呈現出來，讓他們遭受新的、越來越殘忍的性暴力形式”。

AI監督AI

也正是由于AI和大模型的不可控性，學界和業界關于AI“價值對齊”的研究一直從未停息。

學術語境下的“價值對齊"，指的是應確定人工智能追求與人類價值觀相比對的目标，確定AI以對人類和社會有益的方式行事，不對人類的價值和權利造成幹擾和傷害。為了達成這個目标，科學家們也探索出了基于人類回報的強化學習（RLHF）、可擴充監督（Scalable oversight）、可解釋性（Interpretability）和治理（Governance）等不同的解決思路。

當下最主流的對齊研究主要是從“詳細制定系統目的”（外對齊）和“確定系統嚴格遵循人類價值規範”（内對齊）兩個方面着手去做的。這看似是一種理性的方式，但是人類的意圖本身就是模糊不清或難以闡明的，甚至“人類價值”也是多樣的、變化的、甚至彼此沖突的。按照這種方式，即使AI完全了解了人類意圖，它可能也會忽視人類意圖；同時，當AI能力超過人類的時候，人類也無力監督AI。是以，OpenAI的首席科學家Ilya Sutskever 認為，可以訓練另一個智能體來協助評估、監督AI，進而實作超級對齊。

正是基于這種設想，今年7月，OpenAI的“Superalignment（超級對齊）團隊”正式成立。該團隊由 OpenAI 聯合創始人 Ilya Sutskever 和 Jan Leike 共同上司，旨在建構一個與人類水準相當的、負責模型對齊的「AI 研究員」。也就是說，OpenAI 要用 AI 來監督 AI。

12月13日，OpenAI的超級對齊團隊發表了他們的第一篇論文《弱到強的泛化：通過弱監督引導出強大性能》，表示用AI對齊AI的方式取得了實證性的研究成果。

在這篇文章中，OpenAI通過設計類比的方式，使用GPT-2這個弱模型來對GPT-4這個強模型進行微調，探索弱模型監督強模型的可能性。結果發現，15 億參數的 GPT-2 模型可以被用來激發 GPT-4 的大部分能力，使其達到接近 GPT-3.5 級别的性能，甚至可以正确地泛化到小模型失敗的難題上。

OpenAI 将這種現象稱為“弱到強的泛化”（Weak-to-strong generalization），這表明強大的模型具備執行任務的隐含知識，并且即使在給出粗制濫造的指令時，也可以從自身資料中找到這些知識。

無獨有偶，在今年11月上海交大生成式AI研究實驗室（GAIR）發表的一篇題為《Generative Judge For Evaluating Alignment》(評價對齊的生成判斷)的論文中，也提到了用AI監督AI的思路。他們開源了一個130億參數規模的大模型Auto-J，該模型能以單個或成對的方式，評估各類模型在解決不同場景使用者問詢下的表現，旨在解決普世性、靈活性和可解釋性方面的挑戰。

實驗表明，Auto-J能通過輸出詳細、結構化且易讀的自然語言評論來支援其評估結果，使評估結果更具可解釋性與可靠性；同時，它還可以“一器多用”，既可以做對齊評估也可以做獎勵函數（Reward Model），對模型性能進一步優化。也就是說，Auto-J的性能顯著優于諸多開源與閉源模型。

OpenAI超級對齊團隊和上海交大GAIR實驗室的研究或許都表明，用AI監督AI、用弱模型監督強模型的方式，或許是未來解決AI對齊問題的一個重要方向。

然而，要實作Ilya Sutskever所說的“Super-LOVE-alignment”，也就是讓AI無條件的夫妻類，或許還有很長的路要走。

性，謊言和大模型

性，謊言和大模型

繼續閱讀

新聞速覽丨建立大橋橋面出現多個黑洞！當地回應→

全面超越！開源！百度最強SOTA：基于擴散模型的3DGS！

越野賽激情開賽！這位“赤腳”民警很暖心【新聞早播報】

趙原野新聞酷評（2024.05.02，第335期）

【社會新聞】太火爆！假期正式開啟！大家都去哪兒了？這座城市，人最多！

已緻48人死亡！剛剛，新聞釋出會上全體默哀！

圖檔新聞｜“五一”我在崗水庫假日忙施工

圖檔新聞｜五一“趣”玩水上飛機成“新寵”

圖檔新聞｜五一“趣”玩打卡磁器口

圖檔新聞｜五一“趣”玩古鎮煥新迎客來

圖檔新聞｜五一“趣”玩傳統街區魅力四射遊人如織

沖刺2024“半年紅” | 六成AI企業實作盈利增長，大模型企業賺錢了？

國民女神宋慧喬：被财閥控制的負面新聞纏身，其實南韓不止她一人

英語新聞選譯：拜登打臉日本、印度，稱其為不歡迎移民的仇外國家

聯合國秘書長古特雷斯：新聞自由不是一種選擇，而是一種必需

報道加沙戰事的巴勒斯坦記者集體獲得教科文組織世界新聞自由獎