天天看點

Meta 釋出Llama 3,能力直逼GPT-4,一己之力拉高開源大模型水位

作者:不秃頭程式員
Meta 釋出Llama 3,能力直逼GPT-4,一己之力拉高開源大模型水位

Meta麾下“羊駝”一路狂奔在開源的大道上。

在過去的一年裡,Llama系列可以說開辟了開源LLM的半壁江山。

嫌棄開源模型能力隻有GPT-3.5,不夠用?

如今Llama 3釋出,又是一石激起千層浪。粗看其基礎benchmark,足以讓國内外一衆大模型公司瑟瑟發抖。借用一句業内人士的話,“性能上來說感覺就是GPT-3.7的水準。一己之力急速拉高了開源水位”。

首先從資料層面看,Llama 3 在15T tokens上進行了訓練,踐行了又一次堪稱恐怖的大力出奇迹;再者從訓練資源方面看,2.4萬卡叢集訓練的部署也足以展示Meta的志在必得。

Llama 3讓Meta重奪開源大模型的王位,且其性能無限接近甚至超過OpenAI GPT、Gemini和Claude等閉源大模型。

難怪Meta有底氣放言,就各自的參數數量而言,經過兩個定制的24000 GPU叢集訓練的Llama 3 8B和Llama 3 70B是目前可用的性能最佳的生成式AI模型之一。

更加勁爆的是。紮克伯格在最新訪談中透露,Llama3的三個版本中,是80億參數、700億參數的模型開源了,而超過 4000 億個模型還在加緊訓練的路上……

Meta 釋出Llama 3,能力直逼GPT-4,一己之力拉高開源大模型水位

有網友在訪談下調侃道,難怪紮克伯格看起來如此“人性化”,肯定是偷偷運作Llama 3了!

Meta 釋出Llama 3,能力直逼GPT-4,一己之力拉高開源大模型水位

讓小紮都更加AGI的Llama 3,究竟為何能這麼牛呢,不妨來一起看看其細節!

Meta 釋出Llama 3,能力直逼GPT-4,一己之力拉高開源大模型水位

性能 PK,刺刀見紅:

Llama3恐怖如斯

Meta力大磚飛确實有奇效!紮克伯格說,Llama3 80億的模型幾乎與此前釋出的最大版本的Llama2(參數700億)一樣強大。

衆所周知,諸如MMLU(旨在衡量知識)、ARC(試圖衡量技能習得)和DROP(測試模型對文本片段的了解能力)等流行AI基準測試的有效性和實用性尚存争議。但無論好壞,它們仍是AI玩家評估其模型的少數标準化手段之一。

Llama 3 8B在至少九項基準測試中超越了其他開源模型,如Mistral的Mistral 7B和Google的Gemma 7B:MMLU、ARC、DROP、GPQA(一組涉及生物、實體和化學的問題)、HumanEval(一項代碼生成測試)、GSM-8K(數學應用題)、MATH(另一項數學基準)、AGIEval(問題解決測試集)以及BIGbench Hard(常識推理評估)。

誠然,Mistral 7B和Gemma 7B并非處于最前沿(Mistral 7B于去年9月釋出),并且在Meta引用的幾項基準中,Llama 3 8B僅比二者高出幾個百分點。但Meta聲稱,參數數量更大的Llama 3 70B模型,可與包括Google Gemini系列最新款Gemini 1.5 Pro在内的旗艦級生成式AI模型相媲美。

Meta 釋出Llama 3,能力直逼GPT-4,一己之力拉高開源大模型水位

Instruct-tuned模型與Gemma、Mistral、Gemini Pro 1.5、Claude 3 Sonnet在MMLU、GSM-8k等benchmark上的對比如下:

Meta 釋出Llama 3,能力直逼GPT-4,一己之力拉高開源大模型水位

Llama 3 70B在MMLU、HumanEval和GSM-8K三項測試中勝過Gemini 1.5 Pro。盡管它無法與Anthropic表現最為強勁的模型Claude 3 Opus匹敵,但在五個基準(MMLU、GPQA、HumanEval、GSM-8K及MATH)上,Llama 3 70B的成績優于Claude 3系列中第二弱的模型Claude 3 Sonnet。

為了測試Llama 3在标準基準測試上的性能,Meta甚至特意開發了一個新的高品質人類評估集。這個評估集包含1800個提示,涵蓋尋求建議、頭腦風暴、角色扮演等12個關鍵用例。為了測試的公平,評估集不允許自己的模組化團隊通路。結果是,70B的Llama 3Instruct-tuned模型在人類評測中勝過Claude Sonnet和GPT 3.5:

Meta 釋出Llama 3,能力直逼GPT-4,一己之力拉高開源大模型水位

然而,鑒于測試集由Meta自身設計,顯然這些結果需要持保留态度看待。

從定性角度來說,Meta宣稱新Llama模型的使用者可以期待更高的“可控性”,即模型更願意回答問題,并且在瑣事問題、涉及曆史和STEM(如工程與科學)領域的提問以及通用編碼建議方面表現出更高的準确性。

Meta 釋出Llama 3,能力直逼GPT-4,一己之力拉高開源大模型水位

Llama 3 技術細節,

訓練集是上代7倍大

在模型架構方面,與Llama 2 基本一緻,最關鍵的不同在于以下幾點:

  1. Llama 3使用了一個128K Token 的詞彙表,而 Llama-2 的詞彙量為 32K。
  2. 訓練資料使用了 15 萬億個 Token,而不是 Llama-2 的 2 萬億。
  3. 8 億參數的模型也使用了分組查詢注意力(GQA)(與 Llama 2 7b 則沒有)。
  4. 代碼資料是原來的 4 倍。

為了訓練Llama 3,Meta在超過15Token的令牌上進行了預訓練。所使用的訓練資料集是Llama 2所使用的七倍。

在Llama 3的開發過程中,Meta對scaling law有了一些新體會。這次訓練以Chinchilla做指導,但是他們發現雖然對于一個8B模型來說,對應的最優訓練量約200B個令牌,即使在訓練了700億個Token後,模型性能仍在繼續提高。

這些龐大的資料源自何處?Meta并未透露具體來源,僅表示資料來自“公開可用資源”,其中包含的代碼量是Llama 2訓練集的四倍,并且有5%的非英語資料(覆寫約30種語言),旨在提升除英語外其他語言的表現(不過仍然有大佬吐槽Llama 3的中文表現一般)。Meta還表示使用了合成資料(即AI生成的資料)來建立長篇文檔供Llama 3模型訓練,這一做法因可能帶來性能弊端而頗具争議。

許多生成式AI供應商視訓練資料為競争優勢,是以對其保密。但訓練資料詳情也是潛在的知識産權相關訴訟源頭,這也成為不願透露過多資訊的另一個原因。近期報道顯示,在與AI競争對手保持同步的過程中,Meta曾不顧自家律師警告,使用受版權保護的電子書進行AI訓練。

那麼,對于生成式AI模型常見的毒性與偏見問題,Llama 3同樣采取了措施。

Meta表示已開發新的資料過濾管道以提升模型訓練資料品質,并更新了其生成式AI安全套件Llama Guard和CybersecEval,旨在防止Llama 3模型及其他模型被濫用以及産生有毒的文本生成。該公司還釋出了一款名為Code Shield的新工具,用于檢測生成式AI模型産生的可能引入安全漏洞的代碼。然而,過濾并非萬無一失。我們需要等待觀察Llama 3模型在實際應用中的表現,包括學術界對其在替代基準上的測試。

Meta 釋出Llama 3,能力直逼GPT-4,一己之力拉高開源大模型水位

抽幹閉源模型的護城河:4000億參數的“巨無霸”已經在路上

Meta指出,Llama 3模型已經可以下載下傳。

Llama 3為Facebook、Instagram、WhatsApp、Messenger和網頁版Meta AI助手提供支援。不久,其将在包括AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、Nvidia NIM和Snowflake在内的廣泛雲平台上以托管形式提供。

未來,針對AMD、AWS、Dell、Intel、Nvidia和Qualcomm硬體優化的模型版本也将釋出。

盡管Llama 3模型可能廣泛可用,但我們會将其描述為“開放”而非“開源”。這是因為,其Llama系列模型并非如其聲稱的那樣無附加條件。

它們既可用于研究也可用于商業應用。然而,Meta禁止開發者使用Llama模型訓練其他生成式模型,同時月活躍使用者超過7億的應用開發者必須向Meta申請特殊許可,Meta将根據其判斷決定是否授予許可。

更強大的Llama模型已在籌備中。

Meta稱正在訓練規模達4000億參數的Llama 3模型,這類模型能夠進行多語言對話,處理更多類型的資料,了解圖像和其他模态資訊,與文本一樣,這将使Llama 3系列與Hugging Face的Idefics2等開放釋出版本保持一緻。

“我們的近期目标是讓Llama 3實作多語言和多模态,具備更長的上下文了解能力,并在諸如推理和程式設計等大型語言模型核心功能上繼續提升整體性能,”Meta在其部落格文章中寫道。“未來還有許多值得期待的進步。”

随着400B的“巨無霸”逐漸展露真容,大模型競技場的氛圍愈加焦灼。環視四周,我們可以發現,今天釋出的Llama-3 70B,和Gemini 1.5 Pro,Cohere CMD R+,Claude Sonnet以及老版GPT-4差不多站在了同樣的分界線裡。

谷歌曾直言,我們沒有護城河。OpenAI同樣如此。面對 Llama-3 70B的當頭一擊,谷歌最先進的模型Gemini1.5 Pro也要避其鋒芒。閉源模型的護城河每每挖深一點,似乎就會在猝不及防間被紮克伯格抽幹一次。大模型的開源與閉源之争短時間内并不會有解,但Meta在開源立場上的堅持,卻讓這場曠日持久的Battle有了更多的可能性。

就像Yann LeCun在近期的演講中所提到的,我們不能讓少數幾個AI助手掌控全世界每個公民的全部數字生活。這位AI界的泰鬥從始至終堅持開源主張,“我們需要的不是一個AI助手,而是像Llama 2、Mistral和Gemma這樣的基礎模型,任何人都可以對其進行微調”,這樣我們才可以避免回音室,避免讓少數幾家AI平台來控制人們的所見所思,真正獲得多樣化的資訊來源。

Meta 釋出Llama 3,能力直逼GPT-4,一己之力拉高開源大模型水位

Llama 3開源,AI賽道玩家誰喜誰憂?

朱嘯虎在他的“中國現實主義AIGC故事”中談論過一個非常現實的問題:即如果一家公司投入巨資去研發類似于GPT-4的大模型,而一旦其他組織開源了類似的技術,那麼之前的投入可能會白費。

現在開源的王Llama 3橫空出世,已經無限逼近這個預言。對于場上閉源大模型的玩家來說,必須得做到比最強開源大模型領先,才能證明自己的價值。

而Llama 3這樣急速拉高開源模型水位線的做法,無疑是打在其他大模型企業腹地上一記又快又狠的重拳。

但對于AI應用層的企業來說,“奶媽”Llama 3的表現着實讓人驚喜。獵豹CEO傅盛在淩晨兩點的視訊中提到,絕大多數的模型都是基于Llama重新訓練或者進行微調的,而最讓人驚喜的點就在于Llama 3沒有将目标一味聚焦在“大”上,而是讓8B的小模型也跑出了強性能。

Meta 釋出Llama 3,能力直逼GPT-4,一己之力拉高開源大模型水位

傅盛釋出視訊截圖

小紮在訪談中提到無法讓人使用的AI與新技術的濫用一樣糟糕,是以“擁有一個優秀且成為标準的開源人工智能,可能是緩解這種情況的最佳方法。”而Llama 3的優秀和強大,本身就是對“開源社群會越來越落後”論調的最強反擊。

AI技術想要服務于人類福祉,就需要更多人能伸手摘到這顆樹上的果實。Llama 3已經來了,企業和研究機構在強大底座上的二次開發和技術創新也就不遠了。

參考連結:

1.https://www.youtube.com/watch?v=bc6uFV9CJGg

2.https://ai.meta.com/blog/meta-llama-3/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama3

3.https://techcrunch.com/2024/04/18/meta-releases-llama-3-claims-its-among-the-best-open-models-available/