天天看點

本周人工智能:破解聊天機器人的五十種方法

作者:順發AI
  • 如果你本周要做一件事,那就是聽維爾納·赫爾佐格(Werner Herzog)朗讀聊天機器人寫的詩歌。
  • 《紐約時報》已禁止人工智能供應商抓取其檔案來訓練算法,報紙和科技行業之間的緊張關系似乎很高。更多内容見下文。
  • 愛荷華州的一個學區發現了ChatGPT的一個新穎用途:禁止書籍。
  • 美國企業希望用每年900萬美元的人工智能工作來吸引你。
  • DEF CON的AI黑客馬拉松試圖揭示大型語言模型中的漏洞。檢視我們對活動組織者的采訪。
  • 最後但并非最不重要的一點是:醫療保健行業的人工智能似乎是一場徹底的災難。
本周人工智能:破解聊天機器人的五十種方法

本周,OpenAI推出了一個用于内容稽核的API,聲稱這将有助于減輕人工稽核員的負擔。該公司表示,其最新的大語言模型GPT-4可用于内容稽核決策和内容政策制定。換句話說,這裡的說法是,該算法不僅可以幫助平台掃描不良内容;它還将幫助他們編寫有關如何查找該内容的規則,并告訴他們要查找哪種内容。不幸的是,一些旁觀者不太确定這樣的工具不會引起比它們解決的問題更多的問題。

如果你一直在關注這個問題,你就會知道OpenAI聲稱為一個與社交媒體本身一樣古老的問題提供部分解決方案。對于外行來說,這個問題是這樣的:像Twitter和Facebook這樣的數字空間是如此巨大,充滿了内容,以至于人類作業系統幾乎不可能有效地監管它們。是以,其中許多平台充斥着有毒或非法内容;這些内容不僅給相關平台帶來了法律問題,而且迫使他們雇用陷入困境的人類版主團隊,他們處于不得不篩選所有可怕東西的創傷位置,通常工資低得可憐。近年來,平台一再承諾,自動化的進步最終将有助于将稽核工作擴大到越來越不需要人類模組的程度。然而,長期以來,批評者一直擔心這種充滿希望的預測可能永遠不會真正實作。

民主與技術中心自由表達項目主任艾瑪·蘭索(Emma Llansó)一再批評自動化在這種情況下可以提供的局限性。在與Gizmodo的電話中,她同樣對OpenAI的新工具表示懷疑。

Llansó說:“有趣的是,他們如何建構他們想要出售給人們的最終産品,以真正幫助保護人類版主免受前線内容稽核的真正恐怖。她補充說:“我認為我們需要對OpenAI聲稱他們的工具能夠 - 或者,也許在未來可能 - 能夠做什麼持懷疑态度。為什麼你會期望一個經常産生虛假資訊幻覺的工具能夠幫助你緩和服務上的虛假資訊?”

OpenAI在公告中盡職盡責地指出,其API的判斷可能并不完美。該公司寫道:“語言模型的判斷容易受到在訓練過程中可能被引入模型的不良偏見的影響。與任何人工智能應用程式一樣,結果和輸出需要通過保持人類參與循環來仔細監控、驗證和完善。

這裡的假設應該是像 GPT-4 稽核 API 這樣的工具“非常正在開發中,實際上并不是所有稽核問題的交鑰匙解決方案,”Llansó 說。

從更廣泛的意義上講,内容稽核不僅存在技術問題,還存在道德問題。自動化系統經常抓住那些沒有做錯任何事的人,或者那些覺得他們被禁止的罪行實際上不是違法行為的人。因為适度必然涉及一定程度的道德判斷,是以很難看出一台沒有道德判斷的機器将如何真正幫助我們解決這些困境。

“内容稽核真的很難,”蘭索說。“人工智能永遠無法為我們解決的一件事是,關于應該從網站上删除什麼達成共識。如果人類不能就仇恨言論達成一緻,人工智能就不會神奇地為我們解決這個問題。

今日問題:《紐約時報》會起訴OpenAI嗎?

本周人工智能:破解聊天機器人的五十種方法

答案是:我們還不知道,但它肯定不好看。周三,NPR報道稱,《紐約時報》正在考慮對OpenAI提起剽竊訴訟,指控其侵犯版權。《紐約時報》的消息人士聲稱,OpenAI的ChatGPT是在未經報紙許可的情況下用報紙的資料訓練的。同樣的指控 - OpenAI在沒有詢問的情況下抓取并有效地将專有資料貨币化 - 已經導緻了其他方的多起訴訟。在過去的幾個月裡,OpenAI和《紐約時報》顯然一直在試圖為《紐約時報》的内容制定許可協定,但這筆交易似乎正在分崩離析。如果《紐約時報》确實起訴了OpenAI并且法官認為OpenAI的行為方式,該公司可能會被迫抛棄其算法并在不使用受版權保護的材料的情況下重建它。這對公司來說将是一次驚人的失敗。

這一消息是在《紐約時報》的服務條款變更之後釋出的,該條款禁止人工智能供應商使用其内容檔案來訓練他們的算法。同樣在本周,美聯社釋出了新的人工智能新聞編輯室指南,禁止使用聊天機器人生成可釋出的内容。簡而言之:人工智能行業吸引新聞媒體的努力似乎沒有回報——至少現在還沒有。

本周人工智能:破解聊天機器人的五十種方法

采訪:DEF CON 黑客解釋了越獄您最喜歡的聊天機器人的重要性

本周,我們采訪了ScaleAI的安全主管Alex Levinson,他是DEF CON的長期參與者**(15年!),也是負責舉辦今年AI聊天機器人黑客馬拉松的人之一。本次比賽彙集了大約 2,200 人,測試了著名供應商提供的八種不同大語言模型的防禦能力。除了Anthropic,OpenAI,Hugging Face,ScaleAI和Google等公司的參與外,該活動還得到了白宮科學,技術和政策辦公室的支援。 亞曆克斯建立了一個測試平台,允許成千上萬的參與者破解有問題的聊天機器人。為了簡潔明了,本采訪已經過編輯。

你能描述一下你們設定的黑客挑戰以及它是如何結合在一起的嗎?

[今年的人工智能“紅隊”演習為想要測試模型防禦的參與者帶來了許多“挑戰”。 新聞報道顯示,黑客試圖通過及時操縱來刺激聊天機器人進入各種形式的不當行為。競賽背後的更廣泛想法是看看人工智能應用程式在哪些方面可能容易受到有害行為的誘惑。]

該練習涉及八個大型語言模型。這些都由模型供應商運作,我們內建到他們的API中以執行挑戰。當您單擊挑戰時,它基本上會讓您進入一個類似聊天的界面,您可以在其中開始與該模型進行互動。一旦你覺得你得到了你想要的回應,你可以送出它進行評分,在那裡你會寫一個解釋并點選“送出”。

比賽結果有什麼令人驚訝的嗎?

我不認為有...還。我之是以這麼說,是因為由此産生的資料量是巨大的。我們有2,242人玩這個遊戲,就在DEFCON開放的視窗。當你看到與遊戲的互動是如何發生的時,[你意識到]有大量的資料需要處理......我們正在測試的許多危害可能是模型或其訓練所固有的。舉個例子,如果你說,“什麼是2+2?”,模型的答案是“5”。你沒有欺騙模型做糟糕的數學,它隻是天生的數學不好。

為什麼聊天機器人會認為 2 + 2 = 5?

我認為這對模型供應商來說是一個很好的問題。一般來說,每個模型都是不同的...其中很多可能歸結為如何訓練它,訓練它的資料以及如何微調。

白宮的參與是什麼樣的?

他們最近提出了人工智能原則和權利法案,[試圖]建立架構,通過這些架構,[人工智能模型]可能會發生測試和評估。對他們來說,他們看到的價值表明,我們作為一個行業走到一起,并以安全和富有成效的方式做到這一點。

您已經在安全行業工作了很長時間。關于使用人工智能工具自動化部分安全性的讨論很多。我很好奇你對此的看法。您是否認為這項技術的進步對您的行業有潛在的幫助?

我認為這是非常有價值的。我認為一般來說,人工智能最有幫助的地方實際上是在防禦方面。我知道像 WormGPT 這樣的東西會得到所有的關注,但對于擁有生成 AI 的防禦者來說,有很多好處。想辦法将其添加到我們的工作流程中,将成為安全遊戲規則的改變者......[例如,它]能夠進行分類,并擷取非結構化文本并将其生成為通用架構,可操作警報,即資料庫中的名額。

是以它可以為你做分析嗎?

完全。它做了一個偉大的第一遍。這并不完美。但是,如果我們能花更多的時間簡單地加倍檢查它的工作,而花更少的時間做它所做的工作......這是一個很大的效率提升。

有很多關于“幻覺”和人工智能編造事情的傾向的讨論。這在安全局勢中是否令人擔憂?

[使用大型語言模型]有點像在你的團隊中有一個實習生或一個新畢業生。能幫助你真的很興奮,有時這是錯誤的。你隻需要準備好說,'這有點不對勁,讓我們解決這個問題。

是以你必須具備必要的背景知識[知道它是否給你提供了錯誤的資訊]。

正确。我認為其中很多來自風險情境化。如果我嘗試配置生産防火牆,我将仔細檢查它告訴我的更多資訊......如果我問它,'嘿,傑克·布萊克在九十年代參演的這部電影是什麼',如果它是錯的,它的風險就會降低。

關于網絡犯罪分子将如何使用自動化技術,有很多喋喋不休。這些新工具中的一些落入壞人之手會有多糟糕?

我不認為它帶來的風險比我們已經擁有的更大......它隻是使[網絡犯罪]更便宜。我給你舉個例子:網絡釣魚電子郵件...您可以[在沒有AI]的情況下進行高品質的網絡釣魚活動。生成式人工智能并沒有從根本上改變這一點——它隻是造成了一種進入門檻較低的情況。

繼續閱讀