天天看點

2023年釋出的25個開源大型語言模型總結

作者:deephub

大型語言模型(llm)是一種人工智能(AI),在大量文本和代碼資料集上進行訓練。它們可以用于各種任務,包括生成文本、翻譯語言和編寫不同類型的創意内容。

今年開始,人們對開源LLM越來越感興趣。這些模型是在開源許可下釋出的,這意味着任何人都可以使用、修改和分發它們。這使得研究人員、開發人員和企業都可以嘗試LLM,并為它們開發新的應用程式。

使用開源llm有很多好處。首先它們通常比專業的LLM更價便宜。并且它們更加透明,這意味着研究人員可以研究它們是如何工作的以及它們是如何做出決定的。最主要的是它們更加靈活,可以針對不同的任務進行定制。

2023年釋出的25個開源大型語言模型總結

本文總結了目前可用的開源llm的全部(幾乎全部)清單,以及有關其許可選項和源代碼存儲庫的資訊,希望對你有所幫助

SAIL 7B

基于LLaMa的搜尋增強

參數: 7B

許可類型: GPL-3.0

釋出日期: 2023年5月

論文: SAIL — Search Augmented Instruction Learning

Guanaco

采用高效微調方法QLoRA釋出的LLM模型

參數: 65B

許可類型: MIT

釋出日期: 2023年5月

論文: QLoRA — Efficient Finetuning of Quantized LLMs

RMKV

與transformer的LLM性能相當的RNN模型

參數: 100M–14B

許可類型:Apache 2.0

釋出日期: 2023年5月

論文: Scaling RNN to 1.5B and Reach Transformer LM Performance

MPT-7B

MosaicML的基礎系列模型

參數: 7B

許可類型:Apache 2.0

釋出日期: 2023年5月

論文: MPT-7B — A New Standard for Open-Source, Commercially Usable LLMs

OpenLLaMa

在RedPajama資料集上訓練的Meta AI的LLaMA 7B的另一個開源複制。

參數:3,7B

許可類型:Apache 2.0

釋出日期: 2023年5月

論文: Meet OpenLLaMA — An Open-Source Reproduction of Meta AI’s LLaMA Large Language Model

RedPajama-INCITE

基于RedPajama資料集上訓練的指令調整和聊天Pythia模型。

參數:3B, 7B

許可類型:Apache 2.0

釋出日期: 2023年5月

論文: RedPajama-INCITE family of models including base, instruction-tuned & chat models

h2oGPT

H2O的微調架構和文檔問答功能的聊天機器人UI

參數:12B,30B

許可類型:Apache 2.0

釋出日期: 2023年5月

論文: Building the World’s Best Open-Source Large Language Model: H2O.ai’s Journey

FastChat-T5

通過微調Flan-t5-xl對從ShareGPT收集的使用者共享對話進行訓練的聊天機器人

參數:3B

許可類型:Apache 2.0

釋出日期: 2023年4月

論文: FastChat-T5 — our compact and commercial-friendly chatbot!

GPT4All

用于訓練和部署強大的定制llm的完整工具系統

參數:7–13B

許可類型:MIT

釋出日期: 2023年4月

論文: GPT4All: An ecosystem of open-source on-edge large language models.

MiniGPT-4

基于BLIP-2和Vicuna LLM的Visual LLM模型

參數:13B

許可類型:BSD-3-Clause

釋出日期: 2023年4月

論文: MiniGPT-4 — Enhancing Vision-Language Understanding with

Advanced Large Language Models

StableLM

StableLM的LLM模型系列

參數:7B

許可類型:CC BY-NC-SA-4.0

釋出日期: 2023年4月

論文: Stability AI Launches the First of its StableLM Suite of Language Models

BloomZ

通過多任務微調實作跨語言泛化

參數:176B

許可類型:Apache 2.0

釋出日期: 2023年4月

論文: Cross-lingual Generalization through Multitask Finetuning

Dolly

Pythia 12B LLM在Databricks ML平台上訓練的模型

參數:12B

許可類型:Apache 2.0

釋出日期: 2023年4月

論文: Free Dolly — Introducing the World’s First Truly Open Instruction-Tuned LLM

Baize Chatbot

基于LLaMa的開源聊天模型

參數:30B

許可類型:GPL-3.0 license

釋出日期: 2023年4月

論文: Baize — An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

ColossalChat

由ColossalAI開源釋出的一個完整的RLHF流程訓練的模型

參數:N/A

許可類型:Apache 2.0

釋出日期: 2023年4月

論文: ColossalChat — An Open-Source Solution for Cloning ChatGPT With a Complete RLHF Pipeline

Lit LLaMa

來自Lightning AI的LLaMA的開源實作

參數:13B

許可類型:Apache 2.0

釋出日期: 2023年4月

論文: Why We’re Building Lit-LLaMA

Cerebras-GPT

開放的,計算效率高的,大型語言模型

參數:111M-13B

許可類型:Apache 2.0

釋出日期:2023年3月

論文: Cerebras-GPT — Open Compute-Optimal Language Models

Trained on the Cerebras Wafer-Scale Cluster

Open Flamingo

Deepmind的Flamingo模型的開源實作

參數:9B

許可類型:MIT License

釋出日期: 2023年3月

論文: Openflamingo — An Open-source Framework For Training Vision-language Models With In-context Learning

Chat GLM

使用開放式雙語(中英文)雙向密集預訓練模型

參數:6B-130B

許可類型:Apache 2.0

釋出日期: 2023年3月

論文: GLM-130B: An Open Bilingual Pre-trained Model

DLite

通過微調Alpaca資料集上最小的GPT-2模型

參數:124M

許可類型:Apache 2.0

釋出日期: 2023年3月

論文: Introducing DLite, a Lightweight ChatGPT-Like Model Based on Dolly

Alpaca 7B

描述:斯坦福大學釋出的指令遵循LLaMA模型

參數:7B

許可類型:Apache 2.0

釋出日期: 2023年3月

論文: Alpaca — A Strong, Replicable Instruction-Following Model

Flan UL2

在預訓練的UL2檢查點上訓練Flan 20B模型。

參數:20B

許可類型:MIT License

釋出日期: 2023年3月

論文: A New Open Source Flan 20B with UL2

Flan-T5

T5在各種資料集上的指令微調,提高預訓練語言模型的可用性

參數:60M–11B

許可類型:Apache 2.0

釋出日期: 2023年2月

論文: Scaling Instruction-Finetuned Language Models

總結

最後再補充2個剛剛釋出的模型,一個是llama-2,這個我們文章也在前幾天介紹了微調和使用的方法。另外一個就是昨天剛看到的新聞,stabilityai釋出的 FreeWilly2,它是在 Llama2 70B 上微調的結果,目前在open_llm_leaderboard上排第一。

開源大型語言模型正在迅速發展,開源社群釋出了許多模型。這些模型為開發人員、研究人員和愛好者提供了一個非常大機會,可以在沒有專有系統的情況下試驗尖端的語言技術。随着越來越多的組織和個人為這些模型的發展做出貢獻,我們可以期待看到更強大、更容易使用和更創新的語言模型,它們将塑造自然語言處理的未來。

作者:Manikanth

繼續閱讀