天天看點

Meta釋出Llama 3 稱其是目前最好的開放式模型之一

作者:cnBeta

Meta釋出了開源生成式人工智能模型 Llama 系列的最新産品:Llama 3。或者,更準确地說,該公司已經開源了新的 Llama 3 系列中的兩個模型,其餘模型将在未來某個不确定的日期推出。

Meta 稱,與上一代 Llama 模型 Llama 2 8B 和 Llama 2 70B 相比,新模型 Llama 3 8B(包含 80 億個參數)和 Llama 3 70B(包含 700 億個參數)在性能上有了"重大飛躍"。(參數從本質上定義了人工智能模型處理問題的能力,比如分析和生成文本;一般來說,參數數越高的模型比參數數越低的模型能力越強)。事實上,Meta 表示,就各自的參數數而言,Llama 3 8B 和 Llama 3 70B 是在兩個定制的 24,000 GPU 叢集上訓練出來的,是當今性能最好的生成式人工智能模型之一。

話說得很滿,那麼,Meta 公司是如何證明這一點的呢?該公司指出了 Llama 3 模型在 MMLU(用于測量知識)、ARC(用于測量技能習得)和 DROP(用于測試模型對文本塊的推理能力)等流行的人工智能基準上的得分。正如我們之前所寫,這些基準的實用性和有效性還有待商榷。但無論好壞,它們仍然是 Meta 等人工智能玩家評估其模型的少數标準化方法之一。

在至少九項基準測試中,Llama 3 8B 優于其他開源模型,如 Mistral 的Mistral 7B和 Google 的Gemma 7B,這兩個模型都包含 70 億個參數:這些基準包括:MMLU、ARC、DROP、GPQA(一組生物、實體和化學相關問題)、HumanEval(代碼生成測試)、GSM-8K(數學單詞問題)、MATH(另一種數學基準)、AGIEval(解決問題測試集)和 BIG-Bench Hard(常識推理評估)。

現在,Mistral 7B 和 Gemma 7B 并不完全處于最前沿(Mistral 7B 于去年 9 月釋出),在 Meta 引用的一些基準測試中,Llama 3 8B 的得分僅比這兩款産品高幾個百分點。但 Meta 還聲稱,參數數更多的 Llama 3 型号 Llama 3 70B 與旗艦生成式人工智能模型(包括Google Gemini 系列的最新産品 Gemini 1.5 Pro)相比也具有競争力。

圖檔來源:Meta

Llama 3 70B 在 MMLU、HumanEval 和 GSM-8K 三項基準測試中均優于 Gemini 1.5 Pro,而且,雖然它無法與 Anthropic 性能最強的 Claude 3 Opus 相媲美,但 Llama 3 70B 在五項基準測試(MMLU、GPQA、HumanEval、GSM-8K 和 MATH)中的得分均優于 Claude 3 系列中性能最弱的 Claude 3 Sonnet。

值得注意的是,Meta 還開發了自己的測試集,涵蓋了從編碼、創作到推理、總結等各種用例,令人驚喜的是,Llama 3 70B 在與 Mistral Medium 模型、OpenAI 的 GPT-3.5 和 Claude Sonnet 的競争中脫穎而出!- Llama 3 70B 在與 Mistral 的 Mistral Medium 模型、OpenAI 的 GPT-3.5 和 Claude Sonnet 的競争中脫穎而出。Meta 表示,為了保持客觀性,它禁止其模組化團隊通路這組資料,但很明顯,鑒于 Meta 自己設計了這項測試,我們必須對結果持謹慎态度。

在品質方面,Meta 表示,新 Llama 模型的使用者可以期待更高的"可操控性"、更低的拒絕回答問題的可能性,以及更高的瑣碎問題、與曆史和 STEM 領域(如工程和科學)相關的問題和一般編碼建議的準确性。這在一定程度上要歸功于一個更大的資料集:一個由 15 萬億個标記組成的集合,或者說一個令人難以置信的 750,000,000,000 單詞,是 Llama 2 訓練集的七倍。

這些資料從何而來?Meta 公司不願透露,隻表示資料來自"公開來源",包含的代碼數量是 Llama 2 訓練資料集的四倍,其中 5%包含非英語資料(約 30 種語言),以提高非英語語言的性能。Meta 還表示,它使用了合成資料(即人工智能生成的資料)來建立較長的文檔,供 Llama 3 模型訓練使用,由于這種方法存在潛在的性能缺陷,是以頗受争議。

Meta 在一篇博文中寫道:"雖然我們今天釋出的模型僅針對英語輸出進行了微調,但資料多樣性的增加有助于模型更好地識别細微差别和模式,并在各種任務中表現出色。"

許多生成式人工智能供應商将訓練資料視為一種競争優勢,是以對訓練資料和相關資訊守口如瓶。但是,訓練資料的細節也是知識産權相關訴訟的潛在來源,這是另一個不願意透露太多資訊的原因。最近的報道顯示,Meta 公司為了追趕人工智能競争對手的步伐,曾一度不顧公司律師的警告,将受版權保護的電子書用于人工智能訓練;包括喜劇演員莎拉-西爾弗曼(Sarah Silverman)在内的作者正在對 Meta 和 OpenAI 提起訴訟,指控這兩家公司未經授權使用受版權保護的資料進行訓練。

那麼,生成式人工智能模型(包括 Llama 2)的另外兩個常見問題--毒性和偏差又是怎麼回事呢?Llama 3 是否在這些方面有所改進?Meta 聲稱:是的。

Meta 表示,公司開發了新的資料過濾管道,以提高模型訓練資料的品質,并更新了一對生成式人工智能安全套件 Llama Guard 和 CybersecEval,以防止 Llama 3 模型和其他模型的濫用和不必要的文本生成。該公司還釋出了一款新工具 Code Shield,旨在檢測生成式人工智能模型中可能引入安全漏洞的代碼。

不過,過濾并非萬無一失,Llama Guard、CybersecEval 和 Code Shield 等工具也隻能做到這一步。我們需要進一步觀察 Llama 3 型号在實際運用時的表現如何,包括學術界對其他基準的測試。

Meta公司表示,Llama 3模型現在已經可以下載下傳,并在Facebook、Instagram、WhatsApp、Messenger和網絡上為Meta公司的Meta人工智能助手提供支援,不久将以托管形式在各種雲平台上托管,包括AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM的WatsonX、Microsoft Azure、NVIDIA的NIM和Snowflake。未來,還将提供針對 AMD、AWS、戴爾、英特爾、NVIDIA 和高通硬體優化的模型版本。

而且,功能更強大的型号即将問世。Meta 表示,它目前正在訓練的 Llama 3 模型參數超過 4000 億個--這些模型能夠"用多種語言交流"、接收更多資料、了解圖像和其他模式以及文本,這将使 Llama 3 系列與 Hugging Face 的Idefics2 等公開釋出的版本保持一緻。

"我們近期的目标是讓 Llama 3 成為多語言、多模态、具有更長上下文的産品,并繼續提高推理和編碼等核心(大型語言模型)功能的整體性能,"Meta 在一篇博文中寫道。"還有很多事情要做"。