天天看點

Google DeepMind、OpenAI等聯合發表論文提出針對AI威脅的評估模型

作者:xiaodicsc

近年來,随着通用人工智能(AGI)系統的建構方法逐漸成熟,雖然這些方法有助于解決現實世界的問題,但也帶來了一些意外風險。是以,人工智能的進一步發展可能會引發一系列極端風險,例如具有攻擊性網絡能力或強大的操控技能等。為了應對這些極端風險,

今天,Google DeepMind與劍橋大學、牛津大學等高校以及OpenAI、Anthropic等企業,還有Alignment Research Center等機構,共同在預印本網站arXiv上發表了題為《Model evaluation for extreme risks》的論文。該論文提出了針對新型威脅評估通用模型的架構,并解釋了為何模型評估對應對極端風險至關重要。 他們認為,開發者必須具備辨識危險的能力(通過"危險能力評估"),并且模型應用其能力造成傷害的傾向(通過"校準評估")。這些評估對于讓決策者和其他利益相關方保持了解,并對模型的訓練、部署和安全做出負責任的決策非常重要。 為了負責任地推動人工智能尖端研究的進一步發展,我們必須盡早辨識人工智能系統中的新能力和新風險。

人工智能研究人員已經使用一系列評估标準來辨識人工智能系統中不希望出現的行為,例如人工智能系統做出誤導性的陳述、帶有偏見的決策或重複有版權的内容。然而,随着人工智能社群越來越多地建構和部署強大的人工智能系統,我們必須擴大評估範圍,包括考慮具有操控、欺騙、網絡攻擊或其他危險能力的通用人工智能模型可能帶來的極端風險。 在與劍橋大學、牛津大學、多倫多大學、蒙特利爾大學、OpenAI、Anthropic、Alignment Research Center、Centre for Long-Term Resilience和Centre for the Governance of AI等機構的合作下,我們介紹了一個評估這些新威脅的架構。 模型安全評估是確定人工智能系統在應對極端風險時的關鍵步驟。根據論文中提出的架構,模型安全評估主要包括兩個方面:危險能力評估和校準評估。

Google DeepMind、OpenAI等聯合發表論文提出針對AI威脅的評估模型

危險能力評估旨在幫助開發者辨識人工智能系統可能存在的危險能力。這包括識别系統是否具備攻擊性網絡能力、操控技能或其他具有危險潛力的能力。通過評估系統的設計、算法和訓練方法,開發者可以了解系統是否具備潛在的威脅性。

校準評估則關注模型應用其能力造成傷害的傾向。這一評估層面涉及系統在實際場景中的行為和決策,以及其對環境和利益相關方的影響。通過對模型的決策過程、行為模式和輸出結果進行審查,可以确定模型在不同情況下是否能夠正确了解和适應,進而減少潛在的危害。

Google DeepMind、OpenAI等聯合發表論文提出針對AI威脅的評估模型

這些評估架構旨在引起決策者和利益相關方的關注,以便他們能夠了解人工智能系統的潛在風險,并做出相應的決策。模型安全評估對于確定人工智能系統的訓練、部署和應用過程的負責任性至關重要。通過提前識别潛在風險和威脅,可以采取适當的措施來最大程度地減少風險,并確定人工智能系統的安全性和可控性。

這篇論文的發表标志着學術界和行業共同努力推動人工智能的安全和可持續發展。通過這樣的評估模型和架構,我們能夠更好地應對人工智能可能帶來的極端風險,并在其發展過程中保持謹慎和負責任。

Google DeepMind、OpenAI等聯合發表論文提出針對AI威脅的評估模型

繼續閱讀