Meta釋出Llama 3 稱其是目前最好的開放式模型之一

Meta釋出了開源生成式人工智能模型 Llama 系列的最新産品：Llama 3。或者，更準确地說，該公司已經開源了新的 Llama 3 系列中的兩個模型，其餘模型将在未來某個不确定的日期推出。

Meta 稱，與上一代 Llama 模型 Llama 2 8B 和 Llama 2 70B 相比，新模型 Llama 3 8B（包含 80 億個參數）和 Llama 3 70B（包含 700 億個參數）在性能上有了"重大飛躍"。(參數從本質上定義了人工智能模型處理問題的能力，比如分析和生成文本；一般來說，參數數越高的模型比參數數越低的模型能力越強）。事實上，Meta 表示，就各自的參數數而言，Llama 3 8B 和 Llama 3 70B 是在兩個定制的 24,000 GPU 叢集上訓練出來的，是當今性能最好的生成式人工智能模型之一。

話說得很滿，那麼，Meta 公司是如何證明這一點的呢？該公司指出了 Llama 3 模型在 MMLU（用于測量知識）、ARC（用于測量技能習得）和 DROP（用于測試模型對文本塊的推理能力）等流行的人工智能基準上的得分。正如我們之前所寫，這些基準的實用性和有效性還有待商榷。但無論好壞，它們仍然是 Meta 等人工智能玩家評估其模型的少數标準化方法之一。

在至少九項基準測試中，Llama 3 8B 優于其他開源模型，如 Mistral 的Mistral 7B和 Google 的Gemma 7B，這兩個模型都包含 70 億個參數：這些基準包括：MMLU、ARC、DROP、GPQA（一組生物、實體和化學相關問題）、HumanEval（代碼生成測試）、GSM-8K（數學單詞問題）、MATH（另一種數學基準）、AGIEval（解決問題測試集）和 BIG-Bench Hard（常識推理評估）。

現在，Mistral 7B 和 Gemma 7B 并不完全處于最前沿（Mistral 7B 于去年 9 月釋出），在 Meta 引用的一些基準測試中，Llama 3 8B 的得分僅比這兩款産品高幾個百分點。但 Meta 還聲稱，參數數更多的 Llama 3 型号 Llama 3 70B 與旗艦生成式人工智能模型（包括Google Gemini 系列的最新産品 Gemini 1.5 Pro）相比也具有競争力。

圖檔來源：Meta

Llama 3 70B 在 MMLU、HumanEval 和 GSM-8K 三項基準測試中均優于 Gemini 1.5 Pro，而且，雖然它無法與 Anthropic 性能最強的 Claude 3 Opus 相媲美，但 Llama 3 70B 在五項基準測試（MMLU、GPQA、HumanEval、GSM-8K 和 MATH）中的得分均優于 Claude 3 系列中性能最弱的 Claude 3 Sonnet。

值得注意的是，Meta 還開發了自己的測試集，涵蓋了從編碼、創作到推理、總結等各種用例，令人驚喜的是，Llama 3 70B 在與 Mistral Medium 模型、OpenAI 的 GPT-3.5 和 Claude Sonnet 的競争中脫穎而出！- Llama 3 70B 在與 Mistral 的 Mistral Medium 模型、OpenAI 的 GPT-3.5 和 Claude Sonnet 的競争中脫穎而出。Meta 表示，為了保持客觀性，它禁止其模組化團隊通路這組資料，但很明顯，鑒于 Meta 自己設計了這項測試，我們必須對結果持謹慎态度。

在品質方面，Meta 表示，新 Llama 模型的使用者可以期待更高的"可操控性"、更低的拒絕回答問題的可能性，以及更高的瑣碎問題、與曆史和 STEM 領域（如工程和科學）相關的問題和一般編碼建議的準确性。這在一定程度上要歸功于一個更大的資料集：一個由 15 萬億個标記組成的集合，或者說一個令人難以置信的 750,000,000,000 單詞，是 Llama 2 訓練集的七倍。

這些資料從何而來？Meta 公司不願透露，隻表示資料來自"公開來源"，包含的代碼數量是 Llama 2 訓練資料集的四倍，其中 5%包含非英語資料（約 30 種語言），以提高非英語語言的性能。Meta 還表示，它使用了合成資料（即人工智能生成的資料）來建立較長的文檔，供 Llama 3 模型訓練使用，由于這種方法存在潛在的性能缺陷，是以頗受争議。

Meta 在一篇博文中寫道："雖然我們今天釋出的模型僅針對英語輸出進行了微調，但資料多樣性的增加有助于模型更好地識别細微差别和模式，并在各種任務中表現出色。"

許多生成式人工智能供應商将訓練資料視為一種競争優勢，是以對訓練資料和相關資訊守口如瓶。但是，訓練資料的細節也是知識産權相關訴訟的潛在來源，這是另一個不願意透露太多資訊的原因。最近的報道顯示，Meta 公司為了追趕人工智能競争對手的步伐，曾一度不顧公司律師的警告，将受版權保護的電子書用于人工智能訓練；包括喜劇演員莎拉-西爾弗曼（Sarah Silverman）在内的作者正在對 Meta 和 OpenAI 提起訴訟，指控這兩家公司未經授權使用受版權保護的資料進行訓練。

那麼，生成式人工智能模型（包括 Llama 2）的另外兩個常見問題--毒性和偏差又是怎麼回事呢？Llama 3 是否在這些方面有所改進？Meta 聲稱：是的。

Meta 表示，公司開發了新的資料過濾管道，以提高模型訓練資料的品質，并更新了一對生成式人工智能安全套件 Llama Guard 和 CybersecEval，以防止 Llama 3 模型和其他模型的濫用和不必要的文本生成。該公司還釋出了一款新工具 Code Shield，旨在檢測生成式人工智能模型中可能引入安全漏洞的代碼。

不過，過濾并非萬無一失，Llama Guard、CybersecEval 和 Code Shield 等工具也隻能做到這一步。我們需要進一步觀察 Llama 3 型号在實際運用時的表現如何，包括學術界對其他基準的測試。

Meta公司表示，Llama 3模型現在已經可以下載下傳，并在Facebook、Instagram、WhatsApp、Messenger和網絡上為Meta公司的Meta人工智能助手提供支援，不久将以托管形式在各種雲平台上托管，包括AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM的WatsonX、Microsoft Azure、NVIDIA的NIM和Snowflake。未來，還将提供針對 AMD、AWS、戴爾、英特爾、NVIDIA 和高通硬體優化的模型版本。

而且，功能更強大的型号即将問世。Meta 表示，它目前正在訓練的 Llama 3 模型參數超過 4000 億個--這些模型能夠"用多種語言交流"、接收更多資料、了解圖像和其他模式以及文本，這将使 Llama 3 系列與 Hugging Face 的Idefics2 等公開釋出的版本保持一緻。

"我們近期的目标是讓 Llama 3 成為多語言、多模态、具有更長上下文的産品，并繼續提高推理和編碼等核心（大型語言模型）功能的整體性能，"Meta 在一篇博文中寫道。"還有很多事情要做"。

Meta釋出Llama 3 稱其是目前最好的開放式模型之一

繼續閱讀

OpenAI秘密上線神秘模型，疑似ChatGPT4.5進行公開測試

中考數學常考幾何導角問題9種模型總結大全

五力模型，提升個人核心能力

卷瘋了！Meta AI釋出了最強開源大模型Llama 3，提供了8B和70B版?

怎麼用AI大模型解決實際問題？

大模型時代，資料中台現在過氣了嗎？

軒轅大模型的實踐與應用 | ML-Summit 2024

移動UI大模型問世，蘋果iPhone或迎更新新周期

科大訊飛不講大模型的“性感故事”

Meta釋出“最強開源AI模型”，下一代或比GPT更強

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

華為一季度利潤暴漲564%；天涯社群恢複；小紅書内測自研大模型

有效溝通表達的13個模型

一天吃透一條産業鍊:NO.37 AI大模型産業鍊

10款國産大模型大戰弱智吧——中文了解能力測評

最全解讀MoE混合專家模型：揭秘關鍵技術與挑戰