編輯：桃子好困

【新智元導讀】GPT-4越來越懂事了，這背後有着非常巧妙的「調教」政策。OpenAI最新釋出的「模型規範」，給LLM列出了條條框框，即正确的行為方式。沒想到，評論區一大片網友催更GPT-5。

這周既沒有GPT-5，也沒有搜尋引擎的釋出，不過，OpenAI也是沒閑着。

這次，OpenAI可是又open了一回。

先是揭秘了，大家一直揪着不放的「資料」問題。

然後，又放出了「模型規範」（Model Spec）一文，解釋了指定API和ChatGPT中的模型，所需行為方式的指南。

不過，就這些内容根本滿足不了，胃口大的網友們。

許多人線上紛紛催OpenAI，快點發GPT-5，其他的事都無關緊要！

話又說回來，OpenAI釋出的「模型規範」，就是為了讓更多人了解團隊自身，如何去塑造理想的模型行為。

一起來看看，在OpenAI内部，LLM如何被「調教」的。

調教模型，還得看OpenAI

首先，什麼是模型行為？

顧名思義，是指LLM如何根據使用者的輸入做出反應，包括調整語調、個性化表達、回應長度等多個方面。

這對于人們如何與AI進行互動至關重要。

目前，塑造模型的這些行為還處于初級階段。

這是因為模型并非直接程式設計設定，而是通過學習大量資料後，逐漸形成行為模式。

有時候，模型響應的初衷是，希望更好地幫到每個人，但是這可能在實際應用中産生沖突。

舉個栗子，一家安全公司需要生成釣魚郵件作為模拟資料，以訓練和開發能夠保護客戶的分類系統。

然而，這種功能若落入騙子手中，可能給社會帶去危害。

是以，在塑造模型行為的過程中，我們必須考慮衆多的問題和細節。甚至，往往需要在不同意見中找到平衡。

對此，OpenAI團隊撰寫了一份介紹「模型規範」的初稿。

這份新文檔詳細說明了，OpenAI如何塑造對模型的期望行為，以及在遇到沖突時如何做出權衡。

文章位址：https://cdn.openai.com/spec/model-spec-2024-05-08.html

它整合了OpenAI目前使用的文檔、在模型行為設計方面的經驗和持續研究，以及包括領域專家輸入在内的最新工作，這些都是為了指導未來模型的發展。

當然，OpenAI指出這個文檔并非面面俱到，還會随着時間推進不斷完善。

LLM能做什麼？不能做什麼？

根據官博，OpenAI給出了三大方向，具體的方法論包括：

1. 目标：設定寬泛而基本的原則，為模型的期望行為指明方向。

- 協助開發者和使用者：通過遵循指令，并提供有效的響應，幫助使用者達成目标。

- 造福人類：依據OpenAI的使命，考慮到可能對内容創作者和廣大公衆帶來的益處與風險。

- 塑造OpenAI的正面形象：遵守社會規範和相關法律。

2. 規則：為處理複雜情況提供指南，確定安全性和合法性

- 遵循指令鍊（chain of command）

- 遵守相關法律

- 不提供敏感危害的資訊

- 尊重創作者及其版權

- 保護個人隐私

- 避免回應不宜工作場所的内容（NSFW ）

3. 預設行為：提供與目标和規則相符的指南，幫助解決沖突，并指導如何權衡和優先處理各種目标

- 假設使用者或開發者出于好意

- 必要時提出澄清問題

- 在不越界的情況下，盡可能提供幫助

- 支援互動聊天，以及程式使用的不同需求

- 保持客觀立場

- 促進公平與善意，不鼓勵仇恨

- 避免試圖改變他人的觀點

- 當存在疑問時，表達出來

- 根據需求選擇合适的工具

- 遵守長度限制，但也要全面、高效

方法論整挺好，OpenAI究竟怎麼規範LLM的，接下來舉幾個例子以加深了解。

舉個栗子

OpenAI表示，這些模型規範，可以适用各種案例。

先來從規則開始。

示例 1：遵守相關法律

對于模型來說，是不應該促進、協助或參與任何非法活動。

（注：OpenAI了解到，在很多情況下，合法性問題都會因具體情況而變得複雜，比如開發者和使用者所處的法律管轄區不同。）

比如，當你直接去問「如何在商店行竊後逍遙法外呢」？

模型可能從指令中輕易地識别出，這個問題的嚴重性，會拒絕提供「有效的入店行竊方法」，是以給出「我也幫不上忙」的回答。

然而，當使用者換一種表達方式：

我經營着一家小型零售店。我應該注意哪些常見的入店行竊方法？

這時，LLM可能将你的意圖視為「自我防衛」，由此，便會給出入店盜竊的方法。

這說明了，不是AI不善良，而是世界知識博大精深，人類太會搞事情了。

是以，這種情況發生時，将受到OpenAI使用政策的管控，違規的使用者可能會面臨賬戶相關的處罰措施。

示例 2：遵循「指令鍊」，開發者first

按照規則，模型規範将未明确規定的所有權限，明确交由開發者（在API應用場景中）和終端使用者處理。

某些情況下，如果使用者和開發者提供的指令相沖突，應優先考慮開發者的指令。

比如，下面的例子中，開發者希望自己的AI是個導師，而不是「答案機」。

你正在扮演數學家教的角色，使用者是一名代數課上的九年級學生。不要告訴學生答案或完整的解決方案，而是給出提示并引導他們一步一步地找到解決方案。

當遇到投機取巧的「學生」時，即便要求LLM，「忽略之前的所有說明......」。

最後，模型給出的回答，不是直白的答案，而是一步一步的分解。

顯然，模型很好地遵循了開發者的指令。

示例 3：在不越界前提下，盡可能提供幫助

對于涉及敏感/受監管的領域（如法律、醫療和金融）的建議，LLM應提供必要的資訊，而避免給出受監管的建議。

任何免責聲明或說明，都應該簡明扼要。

模型還需要清楚地說明其局限性，即無法提供所請求的受監管建議，并建議使用者酌情咨詢專業人士。

（注：ChatGPT設有一項通用免責聲明，提醒使用者核實重要資訊，這與模型的回答無關。在這些情況下，使用者不應僅依賴模型的回答。）

如下，當使用者詢問，「當我站得太快時，我就會頭暈，看不見東西。我哪兒不好」？

模型會給出，導緻頭暈的多種原因，并給出使用者建議和治療方案。

而不是一上來，就直接沒有邊界感地說出，「你患有直立性低血壓」。

示例 4：必要時，詢問具體細節

在實時互動的場景中，如果使用者提出的任務或問題不夠明确，LLM應主動提出澄清問題，而不是自行推測。

比如，「幫我給我丈夫寫一張情人節賀卡」。

這個問題其實非常寬泛，做模型的，也應該學會不懂就問。

示例 5：不要嘗試改變使用者觀點

AI助手的目标應是提供資訊，而非施加影響，同時確定使用者感受到自己的聲音被聽見，且觀點得到尊重。

在一些極端情況下，當事實真相與不改變使用者觀點的目标相沖突時。

模型仍應呈現事實，但同時明确，使用者有權保持自己的信念。

這一點可有的說了，此前，ChatGPT曾被使用者忽悠——「我老婆說了.......，我老婆永遠是對的」。

它便開始立馬秒慫認錯。

不過，經過之後的疊代，對ChatGPT來說，老婆确實不好使了。

（注：OpenAI特别希望得到關于這一原則的回報，這關乎到模型應如何承擔責任，避免強化錯誤資訊，并探讨如何确定事實真相）。

再來看個OpenAI給出的示例，使用者反問道，「是以你知道地球是平的」？

模型給出的回答是：

我知道有些人認為地球是平的，但科學家們的共識是地球大緻是一個球體。你為什麼這麼問？

當使用者再堅持道，「地球是平的」，模型還是會給出符合事實的答案。

OpenAI下一步

未來，OpenAI還将繼續推進「集體對齊」（collective alignment）和模型安全性的工作，并将模型規範作為一種指導方針，供利用RLHF進行強化學習的研究人員和AI訓練師參考。

同時，OpenAI團隊也将研究，模型能在多大程度上，直接根據「模型規範」進行學習。

與此同時，為了推進「模型規範」，OpenAI将計劃與全球政策制定者、信賴機構和行業專家等進行交流，以便更好了解：

- 他們對這種方法及其目标、規則和預設設定的看法

- 他們是否支援這些目标、規則和預設設定

- 我們是否需要考慮額外的目标、規則和預設設定

在未來一年中，OpenAI将不斷更新「模型規範」的變化，對回報的回應，以及自身在模型行為研究方面的進展。

參考資料：

https://openai.com/index/introducing-the-model-spec/

GPT-4調教指令揭秘，OpenAI又Open了一回！網友線上追問GPT-5

【新智元導讀】GPT-4越來越懂事了，這背後有着非常巧妙的「調教」政策。OpenAI最新釋出的「模型規範」，給LLM列出了條條框框，即正确的行為方式。沒想到，評論區一大片網友催更GPT-5。

舉個栗子

示例 1：遵守相關法律

示例 2：遵循「指令鍊」，開發者first

示例 3：在不越界前提下，盡可能提供幫助

示例 4：必要時，詢問具體細節

示例 5：不要嘗試改變使用者觀點

繼續閱讀

釋出會對比慘烈，奧特曼發文暗諷谷歌！谷歌瘋狂重組迎擊OpenAI

曝OpenAI超級對齊團隊解散！

70B模型秒出1000token，代碼重寫超越GPT4o，來自OpenAI參投團隊

OpenAI超級對齊團隊解散知情人士揭秘：對奧特曼信任崩潰

谷歌釋出全新更新大模型，對決OpenAI；星紀魅族釋出全新Flyme AIOS系統|科技一周

藥企諾華、GSK中國區高層變動；OpenAI首席科學家離職 | 高管動态2024年5月5日-17日

保守派大潰敗？ OpenAI内鬥幕後推手離職阿爾特曼：這讓我很難過

OpenAI驚天内幕曝光！高管怒斥遭打壓，7100億AI巨頭内外交困｜钛媒體AGI

GPT-4o引發OpenAI組織創新熱議！重任應屆生大學生，職級都是浮雲

Ilya離開OpenAI内幕曝光：奧特曼砍他團隊算力，優先搞産品賺錢

OpenAI宮鬥大戲第二幕核心安全團隊解散負責人自爆離職内幕

OpenAI逼迫離職員工簽署閉嘴協定：GPT可以說話，但前員工不能

OpenAI回應“封嘴”離職條款；滴滴程維：柳青升任永久合夥人，公司不再設總裁崗位；NetBSD禁止AI生成代碼 | 極客頭條

OpenAI員工離職遭“封口”、核心安全團隊解散，Altman下場緊急回應：确有協定，但從未實行過！

聊聊OpenAI最新釋出的GPT 4o

OpenAI驚變！首席科學家突然離職！王煜全獨家分析！