天天看點

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

作者:新智元

編輯:編輯部

【新智元導讀】前段時間,微軟公布并開源了最新一代大模型WizardLM-2,号稱性能堪比GPT-4。不過,還未上線一天,模型權重和公告全被删除了,原因竟是......

上周,微軟空降了一個堪稱GPT-4級别的開源模型WizardLM-2。

卻沒想到釋出幾小時之後,立馬被删除了。

有網友突然發現,WizardLM的模型權重、公告文章全部被删除,并且不再微軟集合中,除了提到站點之外,卻找不到任何證據證明這個微軟的官方項目。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

GitHub項目首頁已成404。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

項目位址:https://wizardlm.github.io/

包括模型在HF上的權重,也全部消失了.....

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

全網滿臉疑惑,WizardLM怎麼沒了?

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

然鵝,微軟之是以這麼做,是因為團隊内部忘記對模型做「測試」。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

随後,微軟團隊現身道歉并解釋道,自幾個月前WizardLM釋出以來有一段時間,是以我們對現在新的釋出流程不太熟悉。

我們不小心遺漏了模型釋出流程中所需的一項内容 :投毒測試
釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

微軟WizardLM更新二代

去年6月,基于LlaMA微調而來的初代WizardLM一經釋出,吸引了開源社群一大波關注。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

論文位址:https://arxiv.org/pdf/2304.12244.pdf

随後,代碼版的WizardCoder誕生——一個基于Code Llama,利用Evol-Instruct微調的模型。

測試結果顯示,WizardCoder在HumanEval上的pass@1達到了驚人的 73.2%,超越了原始GPT-4。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

時間推進到4月15日,微軟開發者官宣了新一代WizardLM,這一次是從Mixtral 8x22B微調而來。

它包含了三個參數版本,分别是8x22B、70B和7B。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

最值得一提的是,在MT-Bench基準測試中,新模型取得了領先的優勢。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

具體來說,最大參數版本的WizardLM 8x22B模型性能,幾乎接近GPT-4和Claude 3。

在相同參數規模下,70B版本位列第一。

而7B版本是最快的,甚至可以達到與,參數規模10倍大的領先模型相當的性能。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

WizardLM 2出色表現的背後的秘訣在于,微軟開發的革命性訓練方法論Evol-Instruct。

Evol-Instruct利用大型語言模型,疊代地将初始指令集改寫成越來越複雜的變體。然後,利用這些演化指令資料對基礎模型進行微調,進而顯著提高其處理複雜任務的能力。

另一個是強化學習架構RLEIF,也在WizardLM 2開發過程中起到了重要作用。

在WizardLM 2訓練中,還采用了AI Align AI(AAA)方法,可以讓多個領先的大模型互相指導和改進。

AAA架構由兩個主要的元件組成,分别是「共同教學」和「自學」。

共同教學這一階段,WizardLM和各種獲得許可的開源和專有先進模型進行模拟聊天、品質評判、改進建議和縮小技能差距。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

通過互相交流和提供回報,模型可向同行學習并完善自身能力。

對于自學,WizardLM可通過主動自學,為監督學習生成新的進化訓練資料,為強化學習生成偏好資料。

這種自學機制允許模型通過學習自身生成的資料和回報資訊來不斷提高性能。

另外,WizardLM 2模型的訓練使用了生成的合成資料。

在研究人員看來,大模型的訓練資料日益枯竭,相信AI精心建立的資料和AI逐漸監督的模型将是通往更強大人工智能的唯一途徑。

是以,他們建立了一個完全由AI驅動的合成訓練系統來改進WizardLM-2。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

手快的網友,已經下載下傳了權重

然而,在資料庫被删除之前,許多人已經下載下傳了模型權重。

在該模型被删除之前,幾個使用者還在一些額外的基準上進行了測試。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

好在測試的網友對7B模型感到印象深刻,并稱這将是自己執行本地助理任務的首選模型。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

還有人對其進行了投毒測試,發現WizardLM-8x22B的得分為98.33,而基礎Mixtral-8x22B的得分為89.46,Mixtral 8x7B-Indict的得分為92.93。

得分越高越好,也就是說WizardLM-8x22B還是很強的。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

如果沒有投毒測試,将模型發出來是萬萬不可的。

大模型容易産生幻覺,人盡皆知。

如果WizardLM 2在回答中輸出「有毒、有偏見、不正确」的内容,對大模型來說并不友好。

尤其是,這些錯誤引來全網關注,對與微軟自身來說也會陷入非議之中,甚至會被當局調查。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

有網友疑惑道,你可以通過「投毒測試」更新名額。為什麼要删除整個版本庫和權重?

微軟作者表示,根據内部最新的規定,隻能這樣操作。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

還有人表示,我們就想要未經「腦葉切除」的模型。

釋出幾小時,微軟秒删媲美GPT-4開源大模型!竟因忘記投毒測試

不過,開發者們還需要耐心等待,微軟團隊承諾,會在測試完成後重新上線。