大型語言模型(llm)是一種人工智能(AI),在大量文本和代碼資料集上進行訓練。它們可以用于各種任務,包括生成文本、翻譯語言和編寫不同類型的創意内容。
今年開始,人們對開源LLM越來越感興趣。這些模型是在開源許可下釋出的,這意味着任何人都可以使用、修改和分發它們。這使得研究人員、開發人員和企業都可以嘗試LLM,并為它們開發新的應用程式。
使用開源llm有很多好處。首先它們通常比專業的LLM更價便宜。并且它們更加透明,這意味着研究人員可以研究它們是如何工作的以及它們是如何做出決定的。最主要的是它們更加靈活,可以針對不同的任務進行定制。
本文總結了目前可用的開源llm的全部(幾乎全部)清單,以及有關其許可選項和源代碼存儲庫的資訊,希望對你有所幫助
SAIL 7B
基于LLaMa的搜尋增強
參數: 7B
許可類型: GPL-3.0
釋出日期: 2023年5月
論文: SAIL — Search Augmented Instruction Learning
Guanaco
采用高效微調方法QLoRA釋出的LLM模型
參數: 65B
許可類型: MIT
釋出日期: 2023年5月
論文: QLoRA — Efficient Finetuning of Quantized LLMs
RMKV
與transformer的LLM性能相當的RNN模型
參數: 100M–14B
許可類型:Apache 2.0
釋出日期: 2023年5月
論文: Scaling RNN to 1.5B and Reach Transformer LM Performance
MPT-7B
MosaicML的基礎系列模型
參數: 7B
許可類型:Apache 2.0
釋出日期: 2023年5月
論文: MPT-7B — A New Standard for Open-Source, Commercially Usable LLMs
OpenLLaMa
在RedPajama資料集上訓練的Meta AI的LLaMA 7B的另一個開源複制。
參數:3,7B
許可類型:Apache 2.0
釋出日期: 2023年5月
論文: Meet OpenLLaMA — An Open-Source Reproduction of Meta AI’s LLaMA Large Language Model
RedPajama-INCITE
基于RedPajama資料集上訓練的指令調整和聊天Pythia模型。
參數:3B, 7B
許可類型:Apache 2.0
釋出日期: 2023年5月
論文: RedPajama-INCITE family of models including base, instruction-tuned & chat models
h2oGPT
H2O的微調架構和文檔問答功能的聊天機器人UI
參數:12B,30B
許可類型:Apache 2.0
釋出日期: 2023年5月
論文: Building the World’s Best Open-Source Large Language Model: H2O.ai’s Journey
FastChat-T5
通過微調Flan-t5-xl對從ShareGPT收集的使用者共享對話進行訓練的聊天機器人
參數:3B
許可類型:Apache 2.0
釋出日期: 2023年4月
論文: FastChat-T5 — our compact and commercial-friendly chatbot!
GPT4All
用于訓練和部署強大的定制llm的完整工具系統
參數:7–13B
許可類型:MIT
釋出日期: 2023年4月
論文: GPT4All: An ecosystem of open-source on-edge large language models.
MiniGPT-4
基于BLIP-2和Vicuna LLM的Visual LLM模型
參數:13B
許可類型:BSD-3-Clause
釋出日期: 2023年4月
論文: MiniGPT-4 — Enhancing Vision-Language Understanding with
Advanced Large Language Models
StableLM
StableLM的LLM模型系列
參數:7B
許可類型:CC BY-NC-SA-4.0
釋出日期: 2023年4月
論文: Stability AI Launches the First of its StableLM Suite of Language Models
BloomZ
通過多任務微調實作跨語言泛化
參數:176B
許可類型:Apache 2.0
釋出日期: 2023年4月
論文: Cross-lingual Generalization through Multitask Finetuning
Dolly
Pythia 12B LLM在Databricks ML平台上訓練的模型
參數:12B
許可類型:Apache 2.0
釋出日期: 2023年4月
論文: Free Dolly — Introducing the World’s First Truly Open Instruction-Tuned LLM
Baize Chatbot
基于LLaMa的開源聊天模型
參數:30B
許可類型:GPL-3.0 license
釋出日期: 2023年4月
論文: Baize — An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data
ColossalChat
由ColossalAI開源釋出的一個完整的RLHF流程訓練的模型
參數:N/A
許可類型:Apache 2.0
釋出日期: 2023年4月
論文: ColossalChat — An Open-Source Solution for Cloning ChatGPT With a Complete RLHF Pipeline
Lit LLaMa
來自Lightning AI的LLaMA的開源實作
參數:13B
許可類型:Apache 2.0
釋出日期: 2023年4月
論文: Why We’re Building Lit-LLaMA
Cerebras-GPT
開放的,計算效率高的,大型語言模型
參數:111M-13B
許可類型:Apache 2.0
釋出日期:2023年3月
論文: Cerebras-GPT — Open Compute-Optimal Language Models
Trained on the Cerebras Wafer-Scale Cluster
Open Flamingo
Deepmind的Flamingo模型的開源實作
參數:9B
許可類型:MIT License
釋出日期: 2023年3月
論文: Openflamingo — An Open-source Framework For Training Vision-language Models With In-context Learning
Chat GLM
使用開放式雙語(中英文)雙向密集預訓練模型
參數:6B-130B
許可類型:Apache 2.0
釋出日期: 2023年3月
論文: GLM-130B: An Open Bilingual Pre-trained Model
DLite
通過微調Alpaca資料集上最小的GPT-2模型
參數:124M
許可類型:Apache 2.0
釋出日期: 2023年3月
論文: Introducing DLite, a Lightweight ChatGPT-Like Model Based on Dolly
Alpaca 7B
描述:斯坦福大學釋出的指令遵循LLaMA模型
參數:7B
許可類型:Apache 2.0
釋出日期: 2023年3月
論文: Alpaca — A Strong, Replicable Instruction-Following Model
Flan UL2
在預訓練的UL2檢查點上訓練Flan 20B模型。
參數:20B
許可類型:MIT License
釋出日期: 2023年3月
論文: A New Open Source Flan 20B with UL2
Flan-T5
T5在各種資料集上的指令微調,提高預訓練語言模型的可用性
參數:60M–11B
許可類型:Apache 2.0
釋出日期: 2023年2月
論文: Scaling Instruction-Finetuned Language Models
總結
最後再補充2個剛剛釋出的模型,一個是llama-2,這個我們文章也在前幾天介紹了微調和使用的方法。另外一個就是昨天剛看到的新聞,stabilityai釋出的 FreeWilly2,它是在 Llama2 70B 上微調的結果,目前在open_llm_leaderboard上排第一。
開源大型語言模型正在迅速發展,開源社群釋出了許多模型。這些模型為開發人員、研究人員和愛好者提供了一個非常大機會,可以在沒有專有系統的情況下試驗尖端的語言技術。随着越來越多的組織和個人為這些模型的發展做出貢獻,我們可以期待看到更強大、更容易使用和更創新的語言模型,它們将塑造自然語言處理的未來。
作者:Manikanth