天天看點

卷瘋了!Meta 重磅官宣 Llama 3:最大 4000 億參數

作者:InfoQ

作者 | 李冬梅

中原標準時間 4 月 19 日,Meta 官宣釋出了其最先進開源大型語言模型的下一代産品——Llama 3。

據悉,Llama 3 在 24K GPU 叢集上訓練,使用了 15T 的資料,提供了 80 億和 700 億的預訓練和指令微調版本。

Meta 在官方部落格中表示,“得益于預訓練和後訓練的改進,我們的預訓練和指令微調模型是目前 80 億 和 700 億 參數尺度下最好的模型。”

最大 4000 億參數,性能直逼 GPT-4

值得注意的是,此次的大模型通過後期訓練程式上的改進很大程度上降低了 Llama 3 的錯誤拒絕率,提高了對齊度,并增加了模型響應的多樣性。Meta 研發團隊還發現,推理、代碼生成和指令跟随等能力也有了很大提高,這使得 Llama 3 的可操控性更強。

80 億參數模型與 Gemma 7B 和 Mistral 7B Instruct 等模型相比在 MMLU、GPQA、HumanEval 等多項基準上均有更好表現。而 700 億參數模型則超越了閉源超級明星大模型 Claude 3 Sonnet,且與谷歌的 Gemini Pro 1.5 在性能上不相上下。

卷瘋了!Meta 重磅官宣 Llama 3:最大 4000 億參數

此外,Meta 也測試了 Llama 3 在真實世界場景中的性能。他們專門開發了一個新的高品質人類評估集,該評估集包含 1800 個提示,涵蓋 12 種關鍵用例(征求建議、頭腦風暴、分類、封閉式問題解答、編碼、創意寫作、提取、角色/人物角色、開放式問題解答、推理、改寫和總結)。

在與 Claude Sonnet、Mistral Medium 和 GPT-3.5 的對比中, Llama 3 同樣有着更好的表現。

卷瘋了!Meta 重磅官宣 Llama 3:最大 4000 億參數

人類标注者根據該評估集進行的偏好排名,資料顯示,Llama 3 700 億參數指令跟随模型與真實世界中同等規模的競争模型相比的強大性能。

Llama 3 的預訓練模型還為這類規模的 LLM 模型建立了新的 SOTA。

Meta 表示,它希望最強大的 Llama 3 模型能夠實作多模式,這意味着它們可以接收文本、圖像甚至視訊,然後生成所有這些不同格式的輸出。他們還緻力于使模型能夠支援多種語言。它們還具有更大的“上下文視窗”,這意味着它們可以輸入大量資料進行分析或總結。 (更大的上下文視窗也被證明可以降低模型的幻覺率,或者降低模型響應提示而輸出不準确資訊的頻率。)據 Meta 稱,它們還擁有改進的推理和編碼能力。

值得一提的是,在 Meta 官方部落格中顯示,Meta 還在訓練一款超過 4000 億參數的版本,直接趕超 Claude 3。

四大關鍵要素成就了如今的 Llama 3

那麼,如此強大的開源大模型是如何煉成的?

Meta 在其部落格中表示,Llama 3 之是以能成為最強開源大模型,主要得益于四大關鍵要素:模型架構、預訓練資料、擴大預訓練規模和指令微調。

首先是模型架構。Llama 3 采用了相對标準的純解碼器 Transformer 架構。與 Llama 2 相比,Llama 3 得到了幾項關鍵改進。Llama 3 使用了一個 128K token 的 tokenizer,它能更有效地編碼語言,進而大幅提高模型性能。為了提高 Llama 3 模型的推理效率,Meta 在 80 億和 700 億參數大小的模型中都采用了分組查詢關注(grouped query attention,GQA)。他們在 8192 個 token 的序列上對模型進行了訓練,并使用掩碼來確定自注意力不會跨越文檔邊界。

其次是訓練資料。Meta 表示,要訓練出最佳的語言模型,最重要的是策劃一個大型、高品質的訓練資料集。

據介紹,Llama 3 在超過 15T 的 token 上進行了預訓練,訓練資料集是 Llama 2 的七倍,包含的代碼數量也是 Llama 2 的四倍。

為了應對多語言使用情況,Llama 3 的預訓練資料集中有超過 5% 的高品質非英語資料,涵蓋 30 多種語言。

為了確定 Llama 3 在最高品質的資料上進行訓練,Meta 開發了一系列資料過濾管道。這些管道包括使用啟發式過濾器、NSFW 過濾器、語義重複資料删除方法和文本分類器來預測資料品質。他們發現,前幾代 Llama 在識别高品質資料方面的表現令人驚訝,是以使用 Llama 2 為文本品質分類器生成訓練資料。

此外,為評估在最終預訓練資料集中混合不同來源資料的最佳方法,他們還進行了大量實驗,使得他們能夠選擇一種資料組合,確定 Llama 3 在各種使用情況下都能表現出色,包括瑣事問題、STEM、編碼、曆史知識等。

第三是擴大預訓練規模。為了在 Llama 3 模型中有效利用預訓練資料,Meta 為下遊基準評估制定了一系列詳細的 scaling laws,這些 scaling laws 使他們能夠選擇最佳的資料組合,并就如何更好地使用訓練計算做出最佳決定。

重要的是,在實際訓練模型之前,scaling laws 允許他們預測最大模型在關鍵任務上的性能(例如,在 HumanEval 基準上評估的代碼生成)。這有助于 Llama 3 在各種用例和功能中都能發揮強大的性能。

在開發 Llama 3 的過程中,他們對 scaling 行為進行了一些新的觀察。例如,雖然 80 億參數模型的 Chinchilla 最佳訓練計算量相當于 200B token,但他們發現,即使模型在多兩個數量級的資料上進行訓練後,其性能仍在不斷提高。Llama 3 80 億參數和 700 億參數模型在經過多達 15T token 的訓練後,其性能仍呈對數線性增長。

為了訓練最大的 Llama 3 模型,Meta 結合了三種并行化方式:資料并行化、模型并行化和管道并行化。當同時在 16K GPU 上進行訓練時,他們最高效的實作實作了每 GPU 超過 400 TFLOPS 的計算使用率。他們在兩個定制的 24K GPU 叢集上進行了訓練運作。為了最大限度地延長 GPU 的正常運作時間,Meta 研發團隊還開發了一種新的訓練堆棧,可以自動檢測、處理和維護錯誤。此外,他們還大大改進了硬體可靠性和無聲資料損壞檢測機制,并開發了新的可擴充存儲系統,減少了檢查點和復原的開銷。這些改進使總體有效訓練時間縮短了 95% 以上,與 Llama 2 相比,将 Llama 3 的訓練效率提高了約三倍。

最後是指令微調。為了在聊天用例中充分釋放預訓練模型的潛力,Meta 還對指令微調方法進行了創新。他們的後期訓練方法結合了監督微調(SFT)、拒絕采樣、近似政策優化(PPO)和直接政策優化(DPO)。在 SFT 中使用的提示以及在 PPO 和 DPO 中使用的偏好排序的品質,對排列模型的性能有着極大的影響。

另外,通過 PPO 和 DPO 學習偏好排名也大大提高了 Llama 3 在推理和編碼任務中的性能。他們發現,如果向模型提出一個它難以回答的推理問題,模型有時會生成正确的推理軌迹:模型知道如何得出正确答案,但不知道如何選擇答案。對偏好排序的訓練能讓模型學會如何選擇答案

目前,Llama 3 兩種參數量的基礎和 Instruct 版本都已上線 Hugging Face 可供下載下傳。此外,微軟 Azure、谷歌雲、亞馬遜 AWS、英偉達 NIM 等雲服務平台也将陸續上線 Llama 3。

同時,Meta 還表示 Llama 3 會得到英特爾、英偉達、AMD、高通等多家廠商提供的硬體平台支援。

Hugging Face 位址:https://github.com/meta-llama/llama3

Meta 正在重塑 AIGC 新格局

從最初 Meta 推出免費 的 Llama 系列模型起,該模型一直是市場上最受歡迎的開源模型之一,随着 Meta 首次推出 Llama 3 模型,當今的生成式 AI 格局已然不同。

但 Meta 也面臨着來自其他開源競争者和提供付費封閉通路模型的公司的日益激烈的競争。這套新模型的釋出代表了 Meta 試圖與 OpenAI、Anthropic 和 Google 等競争對手在其最新模型中提供的一些功能相比對,但到目前為止,這些功能僅在封閉的付費專有服務中提供。

正如許多行業觀察人士所預期的那樣,該公司最初釋出了 Llama 3 的兩個較小版本,并在新聞稿中表示“這是同類産品中最好的開源模型”,并将很快出現在 AWS、谷歌雲、Databricks、微軟 Azure 和 Hugging Face 上。但這些型号的功能不如市場上一些性能最高的專有型号。

Llama 3 的更大版本 (擁有超過 4000 億個參數)模型目前仍在訓練中,該公司表示将在未來幾個月内進行安全測試後決定是否以及如何釋出它。

但 Meta 負責 Llama 的産品副總裁拉加萬·斯裡尼瓦桑 (Ragavan Srinivasan)在接受媒體采訪時表示,這個更大的版本“正在與當今市場上看到的一些一流的專有型号相媲美”,并補充說将具有“融入其中”的附加功能。這些功能将比對或超過 Claude 3、Gemini 或 GPT-4 等型号目前提供的功能。

Meta 正在将 Llama 3 引入生成式 AI 領域,該領域與其前身 Llama 2 去年夏天首次亮相時的情況截然不同。從那時起,開源人工智能呈爆炸式增長,盡管關于允許使用者開放通路源代碼和模型權重的人工智能模型的安全性和安全性的争論不斷。

總部位于巴黎的 Mistral AI 于 2023 年 6 月嶄露頭角,由前 Meta 研究人員共同創立,該公司釋出了多種廣受好評的開源模型,而就在本周,據報道該公司正在尋求 50 億美元的估值。兩個月前,谷歌釋出了 Gemma,這是一種采用與其專有 Gemini 相同的研究和技術建構的開放模型。

與此同時,OpenAI、Google 和 Anthropic 開發的專有模型的功能不斷進步,但由于訓練它們所需的大量計算,成本也越來越高。事實上,Meta 是在訓練和運作模型方面支出的大型科技上司者之一:1 月份,馬克·紮克伯格表示 Meta 正在 NVIDIA AI 晶片上花費數十億美元,并表示到 2024 年底,該公司的計算基礎設施将包括 350,000 輛 H100。但 Meta 還緻力于将其模型作為開源産品免費提供,希望能夠控制其他人正在建構的平台,并最終找到一種方法來将這一地位貨币化。這是一種昂貴的政策,并且短期内沒有确定的盈利途徑。

人工智能人才争奪戰持續升溫,頂級研究人員和許多前大型科技工程師紛紛跳槽創辦自己的初創公司,競争非常激烈。正如《财富》雜志最近報道的那樣,Meta 最近發現了自己的人工智能人才流失,包括生成人工智能進階總監在内的幾位高層離職。這對紮克伯格正在進行的生成式人工智能競賽産生了影響:如果 Meta 想要保持領先地位,它需要確定能夠留住最有資格建構這些模型的頂尖人工智能人才。相反,建構最佳模型有助于吸引頂尖人才,而他們通常會被最雄心勃勃的人工智能實驗室所吸引。

AI 是 Meta 的首要任務

人工智能已經成為 Meta 的首要任務,取代了該公司之前對元宇宙的重視,是以它明确計劃采取一切措施在擁擠的領域中脫穎而出。去年 10 月,紮克伯格表示,“人工智能将是我們 2024 年最大的投資領域,無論是在工程還是計算機資源方面。”作為今天 Llama 公告的一部分,他加倍強調了這一主題,表示“我們正在大量投資來建構領先的人工智能。”

Meta 也是開源研究的長期擁護者。它圍繞 Pytorch 架構建立了一個開源生态系統,并于最近慶祝了 FAIR(基礎人工智能研究)成立 10 周年,其建立的目的是“通過開放研究推進人工智能的發展水準,造福所有人”,并已由 Meta 首席科學家 Yann LeCun 上司。

LeCun 推動 Llama 2 釋出商業許可以及模型權重。 “我在内部提倡這一點,”他在 2023 年 9 月的AI Native會議上說道。“我認為這是不可避免的,因為大型語言模型将成為每個人都會使用的基礎設施,它必須是開放的。 ”

人工智能組織 Meta 副總裁 Mahohar Paluri 向《财富》雜志表示,當今激烈的開源人工智能競争讓該公司感到“我們加速創新并以開放方式進行創新的使命得到了支援和驗證,以便我們能夠建構更安全、更高效的模型”每次疊代都會變得越來越好。”互相建構的模型越多,包括 Llama,“我們在為最終使用者提供更多用例方面取得進展的速度就越快。”

原文連結:卷瘋了!Meta重磅官宣Llama 3:最大4000億參數,小紮内心os:大模型比元宇宙香多了_生成式 AI_李冬梅_InfoQ精選文章