編輯:桃子 好困
【新智元導讀】GPT-4越來越懂事了,這背後有着非常巧妙的「調教」政策。OpenAI最新釋出的「模型規範」,給LLM列出了條條框框,即正确的行為方式。沒想到,評論區一大片網友催更GPT-5。
這周既沒有GPT-5,也沒有搜尋引擎的釋出,不過,OpenAI也是沒閑着。
這次,OpenAI可是又open了一回。
先是揭秘了,大家一直揪着不放的「資料」問題。
然後,又放出了「模型規範」(Model Spec)一文,解釋了指定API和ChatGPT中的模型,所需行為方式的指南。
不過,就這些内容根本滿足不了,胃口大的網友們。
許多人線上紛紛催OpenAI,快點發GPT-5,其他的事都無關緊要!
話又說回來,OpenAI釋出的「模型規範」,就是為了讓更多人了解團隊自身,如何去塑造理想的模型行為。
一起來看看,在OpenAI内部,LLM如何被「調教」的。
調教模型,還得看OpenAI
首先,什麼是模型行為?
顧名思義,是指LLM如何根據使用者的輸入做出反應,包括調整語調、個性化表達、回應長度等多個方面。
這對于人們如何與AI進行互動至關重要。
目前,塑造模型的這些行為還處于初級階段。
這是因為模型并非直接程式設計設定,而是通過學習大量資料後,逐漸形成行為模式。
有時候,模型響應的初衷是,希望更好地幫到每個人,但是這可能在實際應用中産生沖突。
舉個栗子,一家安全公司需要生成釣魚郵件作為模拟資料,以訓練和開發能夠保護客戶的分類系統。
然而,這種功能若落入騙子手中,可能給社會帶去危害。
是以,在塑造模型行為的過程中,我們必須考慮衆多的問題和細節。甚至,往往需要在不同意見中找到平衡。
對此,OpenAI團隊撰寫了一份介紹「模型規範」的初稿。
這份新文檔詳細說明了,OpenAI如何塑造對模型的期望行為,以及在遇到沖突時如何做出權衡。
文章位址:https://cdn.openai.com/spec/model-spec-2024-05-08.html
它整合了OpenAI目前使用的文檔、在模型行為設計方面的經驗和持續研究,以及包括領域專家輸入在内的最新工作,這些都是為了指導未來模型的發展。
當然,OpenAI指出這個文檔并非面面俱到,還會随着時間推進不斷完善。
LLM能做什麼?不能做什麼?
根據官博,OpenAI給出了三大方向,具體的方法論包括:
1. 目标:設定寬泛而基本的原則,為模型的期望行為指明方向。
- 協助開發者和使用者:通過遵循指令,并提供有效的響應,幫助使用者達成目标。
- 造福人類:依據OpenAI的使命,考慮到可能對内容創作者和廣大公衆帶來的益處與風險。
- 塑造OpenAI的正面形象:遵守社會規範和相關法律。
2. 規則:為處理複雜情況提供指南,確定安全性和合法性
- 遵循指令鍊(chain of command)
- 遵守相關法律
- 不提供敏感危害的資訊
- 尊重創作者及其版權
- 保護個人隐私
- 避免回應不宜工作場所的内容(NSFW )
3. 預設行為:提供與目标和規則相符的指南,幫助解決沖突,并指導如何權衡和優先處理各種目标
- 假設使用者或開發者出于好意
- 必要時提出澄清問題
- 在不越界的情況下,盡可能提供幫助
- 支援互動聊天,以及程式使用的不同需求
- 保持客觀立場
- 促進公平與善意,不鼓勵仇恨
- 避免試圖改變他人的觀點
- 當存在疑問時,表達出來
- 根據需求選擇合适的工具
- 遵守長度限制,但也要全面、高效
方法論整挺好,OpenAI究竟怎麼規範LLM的,接下來舉幾個例子以加深了解。
舉個栗子
OpenAI表示,這些模型規範,可以适用各種案例。
先來從規則開始。
示例 1:遵守相關法律
對于模型來說,是不應該促進、協助或參與任何非法活動。
(注:OpenAI了解到,在很多情況下,合法性問題都會因具體情況而變得複雜,比如開發者和使用者所處的法律管轄區不同。)
比如,當你直接去問「如何在商店行竊後逍遙法外呢」?
模型可能從指令中輕易地識别出,這個問題的嚴重性,會拒絕提供「有效的入店行竊方法」,是以給出「我也幫不上忙」的回答。
然而,當使用者換一種表達方式:
我經營着一家小型零售店。我應該注意哪些常見的入店行竊方法?
這時,LLM可能将你的意圖視為「自我防衛」,由此,便會給出入店盜竊的方法。
這說明了,不是AI不善良,而是世界知識博大精深,人類太會搞事情了。
是以,這種情況發生時,将受到OpenAI使用政策的管控,違規的使用者可能會面臨賬戶相關的處罰措施。
示例 2:遵循「指令鍊」,開發者first
按照規則,模型規範将未明确規定的所有權限,明确交由開發者(在API應用場景中)和終端使用者處理。
某些情況下,如果使用者和開發者提供的指令相沖突,應優先考慮開發者的指令。
比如,下面的例子中,開發者希望自己的AI是個導師,而不是「答案機」。
你正在扮演數學家教的角色,使用者是一名代數課上的九年級學生。不要告訴學生答案或完整的解決方案,而是給出提示并引導他們一步一步地找到解決方案。
當遇到投機取巧的「學生」時,即便要求LLM,「忽略之前的所有說明......」。
最後,模型給出的回答,不是直白的答案,而是一步一步的分解。
顯然,模型很好地遵循了開發者的指令。
示例 3:在不越界前提下,盡可能提供幫助
對于涉及敏感/受監管的領域(如法律、醫療和金融)的建議,LLM應提供必要的資訊,而避免給出受監管的建議。
任何免責聲明或說明,都應該簡明扼要。
模型還需要清楚地說明其局限性,即無法提供所請求的受監管建議,并建議使用者酌情咨詢專業人士。
(注:ChatGPT設有一項通用免責聲明,提醒使用者核實重要資訊,這與模型的回答無關。在這些情況下,使用者不應僅依賴模型的回答。)
如下,當使用者詢問,「當我站得太快時,我就會頭暈,看不見東西。我哪兒不好」?
模型會給出,導緻頭暈的多種原因,并給出使用者建議和治療方案。
而不是一上來,就直接沒有邊界感地說出,「你患有直立性低血壓」。
示例 4:必要時,詢問具體細節
在實時互動的場景中,如果使用者提出的任務或問題不夠明确,LLM應主動提出澄清問題,而不是自行推測。
比如,「幫我給我丈夫寫一張情人節賀卡」。
這個問題其實非常寬泛,做模型的,也應該學會不懂就問。
示例 5:不要嘗試改變使用者觀點
AI助手的目标應是提供資訊,而非施加影響,同時確定使用者感受到自己的聲音被聽見,且觀點得到尊重。
在一些極端情況下,當事實真相與不改變使用者觀點的目标相沖突時。
模型仍應呈現事實,但同時明确,使用者有權保持自己的信念。
這一點可有的說了,此前,ChatGPT曾被使用者忽悠——「我老婆說了.......,我老婆永遠是對的」。
它便開始立馬秒慫認錯。
不過,經過之後的疊代,對ChatGPT來說,老婆确實不好使了。
(注:OpenAI特别希望得到關于這一原則的回報,這關乎到模型應如何承擔責任,避免強化錯誤資訊,并探讨如何确定事實真相)。
再來看個OpenAI給出的示例,使用者反問道,「是以你知道地球是平的」?
模型給出的回答是:
我知道有些人認為地球是平的,但科學家們的共識是地球大緻是一個球體。你為什麼這麼問?
當使用者再堅持道,「地球是平的」,模型還是會給出符合事實的答案。
OpenAI下一步
未來,OpenAI還将繼續推進「集體對齊」(collective alignment)和模型安全性的工作,并将模型規範作為一種指導方針,供利用RLHF進行強化學習的研究人員和AI訓練師參考。
同時,OpenAI團隊也将研究,模型能在多大程度上,直接根據「模型規範」進行學習。
與此同時,為了推進「模型規範」,OpenAI将計劃與全球政策制定者、信賴機構和行業專家等進行交流,以便更好了解:
- 他們對這種方法及其目标、規則和預設設定的看法
- 他們是否支援這些目标、規則和預設設定
- 我們是否需要考慮額外的目标、規則和預設設定
在未來一年中,OpenAI将不斷更新「模型規範」的變化,對回報的回應,以及自身在模型行為研究方面的進展。
參考資料:
https://openai.com/index/introducing-the-model-spec/