天天看點

全網首發,Meta Llama-3 全方位詳解

作者:人人都是産品經理
時隔9個月之後,meta正式釋出了Llama3的正式版。模型已經上架,8B和70B模型已經開源,可以免費商用(限制月活不的超越7億),還有哪些新的資訊呢?
全網首發,Meta Llama-3 全方位詳解

關于 Llama

Llama 是由 Meta(FaceBook) AI 釋出的一個開源項目,允許商用,影響力巨大。之前釋出的 Llama 2,支援 4096 上下文,性能卓越,被認為是 GPT 系列最大的競争對手(之一)。

Llama-3

Meta 釋出了 Meta Llama 3 系列語言模型(LLM),具體包括一個 8B 模型和一個70 B模型在測試基準中,Llama 3 模型的表現相當出色,在實用性和安全性評估中,與那些市面上流行的閉源模型不相上下。

第 1 部分 剛剛釋出的Llama-3

中國時間 2024 年 4 月 19 日 0 點 0 分,Meta Llama 3 釋出。模型以開源形式提供,包含 8B 和 70B 兩種參數規模,涵蓋預訓練和指令調優的變體。Llama 3 支援多種商業和研究用途,并已在多個行業标準測試中展示了其卓越的性能。

技術資訊

Transformer 架構

Meta Llama 3 采用了優化的自回歸 Transformer 架構,這種架構專為處理複雜的文本生成任務設計,能夠有效提升生成文本的連貫性和相關性。

混合調優

模型結合了監督式微調(SFT)和帶人類回報的強化學習(RLHF),這種混合方法不僅增強了模型的幫助性,也提高了安全性,使得模型在實際應用中更加可靠和符合使用者預期。

性能卓越

在多個行業标準基準測試中,特别是在對話類應用中,Meta Llama 3 的表現超過了許多現有的開源聊天模型,顯示了其強大的應用潛力,具體後面細說。

資料訓練

大的資料

Llama 3 使用了超過 15 萬億令牌的公開線上資料進行預訓練,這些資料經過精選,確定模型訓練的廣泛性和高品質輸出。

新的資料

8B 版本資料更新截止至 2023 年 3 月,而 70B 版本則更新至同年 12 月。

30 種語言

雖主要以英語為主,但預訓練資料中包含超過 30 種語言的高品質非英語資料

* 大聰明:中文資料不知道用沒用「弱智吧」語料

政治正确(霧)

碳排放抵消

Meta 承諾通過其可持續性計劃抵消預訓練過程中産生的所有 CO2 排放(2290 噸 CO2 等效)。

很守規矩

Llama 3 的使用嚴格遵守法律法規,確定不被用于任何非法活動,同時強調了對知識産權和合規性的重視。

第 2 部分 技術性能

這次的 Llama 在性能上展現了大幅度提升,包括最直接的 8k 上下文(之前是4k),以及可以更好的完成輸出任務。

性能測試

基準測試

  • Meta Llama 3 的 70B 模型在多項基準測試中顯示出色的性能,例如在 TriviaQA-Wiki 測試中達到了 89.7% 的準确率,明顯優于其他同規模模型。
  • 在内部開發的高品質人類評估集中,該評估集包含了 1,800 個提示,覆寫了 12 個關鍵用例(包括咨詢、編碼、創意寫作等),Llama 3 在這些實際應用場景中的表現同樣卓越。
全網首發,Meta Llama-3 全方位詳解

這裡再附一張 Llama 2 和 3 的對比:

全網首發,Meta Llama-3 全方位詳解

現實場景

根據人類評估者的偏好排名,Llama 的 70B 參數模型在實際應用場景中的表現,尤其是在指令跟随方面,相較于其他相當規模的模型表現出了顯著的優勢。

架構與優化

模型架構

  • Llama 3 采用了自回歸 Transformer 架構,這種結構特别适合于處理複雜的文本生成任務,能有效提升文本的連貫性和相關性。
  • 引入了分組查詢注意力(Grouped Query Attention, GQA)技術,這不僅提升了大資料處理的效率,還加快了響應速度。

訓練和微調

  • 在預訓練階段,Llama 使用了超過 15 萬億令牌的高品質資料集,包括多種語言的文本,以確定模型具有廣泛的适用性和優異的性能。
  • 在微調階段,通過監督式微調(SFT)和帶人類回報的強化學習(RLHF)的混合方法,Llama 顯著降低了錯誤拒絕率,改善了模型的對齊和響應多樣性。

性能提升Llama 3 在本次更新中,于推理、代碼生成和指令跟随等方面有了明顯的能力提升。

第 3 部分 在哪能用

作為一個開源 LLM,你可以通過多種方式來使用:直接用别人部署好的産品,找部署好的接口,或者自己部署

全網首發,Meta Llama-3 全方位詳解

中文還是有問題

直接使用(最簡單)

Hugging Face位址在這,進去後直接切模型:https://huggingface.co/chat/

Replicate8B 模型:hat/https://replicate.com/meta/meta-llama-3-8b70B模型:https://replicate.com/meta/meta-llama-3-70b

全網首發,Meta Llama-3 全方位詳解

(剛放上去,隻運作了 8 次)

Meta AIMeta 自己拿 Llama 3 做的,這裡通路:https://ai.meta.com/注意,這個鎖地區。

第三方 API

微軟 Azure位址在這:https://azuremarketplace.microsoft.com/en-us/marketplace/apps/metagenai.meta-llama-3-8b-chat-offer?tab=overview

Replicate他們好卷…Llama 釋出1個小時,他們就上線服務了,這倆位址也能走 API8B 模型:hat/https://replicate.com/meta/meta-llama-3-8b70B模型:https://replicate.com/meta/meta-llama-3-70b

自己部署

Meta 項目官網位址在這:https://llama.meta.com/llama-downloads

Github項目位址:https://github.com/meta-llama/llama3

第 4 部分 其他

跟随 Llama 3 釋出的,還有 Meta AI 系列,包括:一款手機app,一個網站,還有一堆在 Meta FaceBook 全家桶裡的插件

* 大聰明:從中國取的經吧?

APP 能幹啥

能當 ChatGPT 用emmmmm…

全網首發,Meta Llama-3 全方位詳解

網頁應用能幹啥

還是能當 ChatGPT 用emmmmm…

全網首發,Meta Llama-3 全方位詳解

插件能幹啥

能在全家桶裡用這個看上去很實用!

全網首發,Meta Llama-3 全方位詳解

以上,由本「大聰明」報道。下次還是我🤔

作者:賽博禅心,微信公衆号:賽博禅心

本文由 @ 原創釋出于人人都是産品經理。未經作者許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協定

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。