天天看点

又开源了:AI的开源大语言模型正成为人工智能领域的一种新趋势

作者:科技棒棒

随着人工智能技术的不断发展,大语言模型(LLM)已成为研究和商业应用的热门领域。目前我们发现一个新的动向,开源的大语言模型成为了一种新的趋势,它们为研究人员和企业提供了一个强大且灵活的工具,可以用来开发和部署先进的人工智能应用。

又开源了:AI的开源大语言模型正成为人工智能领域的一种新趋势

例如,MosaicML就在本月发布了一系列基于其MPT-7B架构的开源大语言模型。这些模型拥有七十亿个参数,并且具有一个可扩展到64,000个令牌的上下文窗口,这意味着它们可以一次性处理数百页文档中的文本。与大多数LLMs不同,如Meta的LLaMA模型,仅可用于研究目的,MPT-7B支持商业应用。

此外,MosaicML还发布了一个更强大的开源模型——MPT-30B。是300亿参数规模的基础大语言模型,是我们基础系列模型的一员,使用8k上下文长度在H100s上进行了训练。MPT-30B拥有一些特殊功能,使其与其他LLMs不同,包括在训练时使用8k令牌上下文窗口,通过ALiBi支持更长的上下文,并通过FlashAttention实现高效推理+训练性能。它使用了一个为高效训练和推理而优化的transformer架构,并在1T tokens的英文文本和代码上从头训练。

与主流大语言模型的一些对比:

大语言模型名称 参数 规模 商业开源 所属
MPT-30B 300亿 中等的 已开源 MosaicML
MPT-7B 67亿 中等的 已开源 MosaicML
OpenLLaMA 30亿、70亿、130亿 可选规格 已开源 Mate
LaMDA 1370亿 大型 未开源 Google
GPT-3 1750亿 大型 未开源 OpenAI
Jurassic-1 Jumbo 1780亿 巨型 未开源 AI21 Labs

此外,还有许多其他流行的开源大语言模型,如GPT-Neo、GPT-J和GPT-NeoX。这些模型使用了一个新颖的架构,可以更有效地处理长序列数据。XLNet是由卡内基梅隆大学和谷歌的研究人员开发的一种新型模型,用于执行NLP任务,如阅读理解、文本分类、情感分析等。它采用了一种新颖的预训练方法,可以更好地捕捉长距离依赖关系。

还有的开源大语言模型,如Roberta、DeBERTa、XLM-RoBERTa和DistilBERT。这些模型采用了不同的预训练方法和数据集,以提高它们在各种NLP任务上的性能。

这些开源模型为企业提供了一个快速、经济、安全地构建和部署自己的人工智能应用的途径。它们可以直接用于推理,也可以作为构建专有模型的起点。此外,由于这些模型是开源的,企业可以在不泄露数据或妥协数据隐私的情况下使用它们。

又开源了:AI的开源大语言模型正成为人工智能领域的一种新趋势

总之,开源大语言模型正成为人工智能领域的一种新趋势。它们为研究人员和企业提供了一个强大且灵活的工具,可以用来开发和部署先进的人工智能应用。随着技术的不断发展和成本的降低,我们可以预见,在未来几年内,开源大语言模型将在各个领域(包括医疗、金融、电子商务和制造业等)发挥越来越重要的作用,必然导致全面的推动人工智能普及。

名词诠释:

又开源了:AI的开源大语言模型正成为人工智能领域的一种新趋势

LLaMA(Large Language Model Meta AI):它是一个由Meta(Facebook)开发的基础大语言模型,是一个开源的大语言模型。基于传统的变压器架构,并包括一些最近的训练进展,如预标准化(如GPT-3中所见)、SwiGLU激活函数(用于PaLM)和旋转嵌入(应用于GPTNeo)》。LLaMA模型的推理代码可以在GitHub(全球最大的代码开源网站)上找到。

Transformer架构:使用不依赖于循环和卷积的编码器-解码器结构来生成输出。编码器将输入序列映射到一系列连续表示。解码器接收编码器的输出和解码器在前一个时间步的输出,并生成输出序列。

FlashAttention:是一种快速且节省内存的注意力算法,它通过重新排序注意力计算并利用经典技术(如分块和重计算)来显著提高速度并将内存使用量从序列长度的平方降低到线性。它旨在避免从高带宽内存(HBM)中读取和写入注意力矩阵,这需要在不访问整个输入的情况下计算softmax reduction,并且在后向传播中不能存储中间注意力矩阵。FlashAttention可以加速BERT/GPT-2的速度,最多可提高3倍,并允许使用长上下文(最多16k)进行训练。

NLP(Natural Language Processing):自然语言处理是人工智能领域的一个分支,它旨在使计算机能够理解、解释和生成人类语言。NLP技术可以用于各种应用,如语音识别、机器翻译、情感分析、文本摘要和问答系统等。NLP技术的发展为人类与计算机之间的交互提供了更多的可能性。

继续阅读