随着人工智能技术的不断发展，大语言模型（LLM）已成为研究和商业应用的热门领域。目前我们发现一个新的动向，开源的大语言模型成为了一种新的趋势，它们为研究人员和企业提供了一个强大且灵活的工具，可以用来开发和部署先进的人工智能应用。

例如，MosaicML就在本月发布了一系列基于其MPT-7B架构的开源大语言模型。这些模型拥有七十亿个参数，并且具有一个可扩展到64,000个令牌的上下文窗口，这意味着它们可以一次性处理数百页文档中的文本。与大多数LLMs不同，如Meta的LLaMA模型，仅可用于研究目的，MPT-7B支持商业应用。

此外，MosaicML还发布了一个更强大的开源模型——MPT-30B。是300亿参数规模的基础大语言模型，是我们基础系列模型的一员，使用8k上下文长度在H100s上进行了训练。MPT-30B拥有一些特殊功能，使其与其他LLMs不同，包括在训练时使用8k令牌上下文窗口，通过ALiBi支持更长的上下文，并通过FlashAttention实现高效推理+训练性能。它使用了一个为高效训练和推理而优化的transformer架构，并在1T tokens的英文文本和代码上从头训练。

与主流大语言模型的一些对比：

大语言模型名称	参数	规模	商业开源	所属
MPT-30B	300亿	中等的	已开源	MosaicML
MPT-7B	67亿	中等的	已开源	MosaicML
OpenLLaMA	30亿、70亿、130亿	可选规格	已开源	Mate
LaMDA	1370亿	大型	未开源	Google
GPT-3	1750亿	大型	未开源	OpenAI
Jurassic-1 Jumbo	1780亿	巨型	未开源	AI21 Labs

此外，还有许多其他流行的开源大语言模型，如GPT-Neo、GPT-J和GPT-NeoX。这些模型使用了一个新颖的架构，可以更有效地处理长序列数据。XLNet是由卡内基梅隆大学和谷歌的研究人员开发的一种新型模型，用于执行NLP任务，如阅读理解、文本分类、情感分析等。它采用了一种新颖的预训练方法，可以更好地捕捉长距离依赖关系。

还有的开源大语言模型，如Roberta、DeBERTa、XLM-RoBERTa和DistilBERT。这些模型采用了不同的预训练方法和数据集，以提高它们在各种NLP任务上的性能。

这些开源模型为企业提供了一个快速、经济、安全地构建和部署自己的人工智能应用的途径。它们可以直接用于推理，也可以作为构建专有模型的起点。此外，由于这些模型是开源的，企业可以在不泄露数据或妥协数据隐私的情况下使用它们。

总之，开源大语言模型正成为人工智能领域的一种新趋势。它们为研究人员和企业提供了一个强大且灵活的工具，可以用来开发和部署先进的人工智能应用。随着技术的不断发展和成本的降低，我们可以预见，在未来几年内，开源大语言模型将在各个领域（包括医疗、金融、电子商务和制造业等）发挥越来越重要的作用，必然导致全面的推动人工智能普及。

名词诠释：

LLaMA（Large Language Model Meta AI）：它是一个由Meta（Facebook）开发的基础大语言模型，是一个开源的大语言模型。基于传统的变压器架构，并包括一些最近的训练进展，如预标准化（如GPT-3中所见）、SwiGLU激活函数（用于PaLM）和旋转嵌入（应用于GPTNeo）》。LLaMA模型的推理代码可以在GitHub（全球最大的代码开源网站）上找到。

Transformer架构：使用不依赖于循环和卷积的编码器-解码器结构来生成输出。编码器将输入序列映射到一系列连续表示。解码器接收编码器的输出和解码器在前一个时间步的输出，并生成输出序列。

FlashAttention：是一种快速且节省内存的注意力算法，它通过重新排序注意力计算并利用经典技术（如分块和重计算）来显著提高速度并将内存使用量从序列长度的平方降低到线性。它旨在避免从高带宽内存（HBM）中读取和写入注意力矩阵，这需要在不访问整个输入的情况下计算softmax reduction，并且在后向传播中不能存储中间注意力矩阵。FlashAttention可以加速BERT/GPT-2的速度，最多可提高3倍，并允许使用长上下文（最多16k）进行训练。

NLP（Natural Language Processing）：自然语言处理是人工智能领域的一个分支，它旨在使计算机能够理解、解释和生成人类语言。NLP技术可以用于各种应用，如语音识别、机器翻译、情感分析、文本摘要和问答系统等。NLP技术的发展为人类与计算机之间的交互提供了更多的可能性。

又开源了：AI的开源大语言模型正成为人工智能领域的一种新趋势

名词诠释：

继续阅读

CVPR 2024｜让图像扩散模型生成高质量360度场景，只需要一个语言模型

这款真是太可爱啦！2024年最新款的电动智能机器狗，不仅造型逼真，还有八轮设计，灵活自如！男女孩都会喜欢的礼物，是亲子互

餐厅里机器人炒菜，送餐，替代厨师和服务员；家里和路上，机器人扫地，替代家政和清洁工；工厂里自动化生产线，替代掉大量的流水

美政府被曝正考虑再出招限制中国获取用于人工智能的芯片技术，中方此前已表态

数学到底有多重要，看官媒给你科普。与航空航天，国防安全，生物医药，海洋，人工智能，信息，能源，先进制造的联系越来越紧密。

卡内基梅隆大学研究人工智能更好为人类提供公平的方法

奥特曼谈AI的机遇、挑战与人类自我反思：中国将拥有独特的大语言模型

人工智能行业深度报告-“元年”之后-再看大模型应用商业化进展

人工智能迭代一切，文科生将是“最后幸存者”

一件纯花钱的事连干6年，阿里还乐此不疲，背后野心藏不住了！就在6月13号，2024阿里数学竞赛决赛名单新鲜出炉，共有全球

2024 年 19 种最佳大型语言模型

2024:美国财富500强最多的州今年进入财富500强榜单的公司总部分布在37个州的226个城市，从俄亥俄州的小城镇到洛

欢迎！德国科学院院士Gerhard P. Fettweis加入亚太人工智能学会

AI 数据建模：人工智能如何重塑人类进步的未来（3/5）

大模型应用之路：从提示词到通用人工智能（AGI）

什么是人工智能，它与人工智能有何不同，它们的用途是什么？