随着人工智能技術的不斷發展，大語言模型（LLM）已成為研究和商業應用的熱門領域。目前我們發現一個新的動向，開源的大語言模型成為了一種新的趨勢，它們為研究人員和企業提供了一個強大且靈活的工具，可以用來開發和部署先進的人工智能應用。

例如，MosaicML就在本月釋出了一系列基于其MPT-7B架構的開源大語言模型。這些模型擁有七十億個參數，并且具有一個可擴充到64,000個令牌的上下文視窗，這意味着它們可以一次性處理數百頁文檔中的文本。與大多數LLMs不同，如Meta的LLaMA模型，僅可用于研究目的，MPT-7B支援商業應用。

此外，MosaicML還釋出了一個更強大的開源模型——MPT-30B。是300億參數規模的基礎大語言模型，是我們基礎系列模型的一員，使用8k上下文長度在H100s上進行了訓練。MPT-30B擁有一些特殊功能，使其與其他LLMs不同，包括在訓練時使用8k令牌上下文視窗，通過ALiBi支援更長的上下文，并通過FlashAttention實作高效推理+訓練性能。它使用了一個為高效訓練和推理而優化的transformer架構，并在1T tokens的英文文本和代碼上從頭訓練。

與主流大語言模型的一些對比：

大語言模型名稱	參數	規模	商業開源	所屬
MPT-30B	300億	中等的	已開源	MosaicML
MPT-7B	67億	中等的	已開源	MosaicML
OpenLLaMA	30億、70億、130億	可選規格	已開源	Mate
LaMDA	1370億	大型	未開源	Google
GPT-3	1750億	大型	未開源	OpenAI
Jurassic-1 Jumbo	1780億	巨型	未開源	AI21 Labs

此外，還有許多其他流行的開源大語言模型，如GPT-Neo、GPT-J和GPT-NeoX。這些模型使用了一個新穎的架構，可以更有效地處理長序列資料。XLNet是由卡内基梅隆大學和谷歌的研究人員開發的一種新型模型，用于執行NLP任務，如閱讀了解、文本分類、情感分析等。它采用了一種新穎的預訓練方法，可以更好地捕捉長距離依賴關系。

還有的開源大語言模型，如Roberta、DeBERTa、XLM-RoBERTa和DistilBERT。這些模型采用了不同的預訓練方法和資料集，以提高它們在各種NLP任務上的性能。

這些開源模型為企業提供了一個快速、經濟、安全地建構和部署自己的人工智能應用的途徑。它們可以直接用于推理，也可以作為建構專有模型的起點。此外，由于這些模型是開源的，企業可以在不洩露資料或妥協資料隐私的情況下使用它們。

總之，開源大語言模型正成為人工智能領域的一種新趨勢。它們為研究人員和企業提供了一個強大且靈活的工具，可以用來開發和部署先進的人工智能應用。随着技術的不斷發展和成本的降低，我們可以預見，在未來幾年内，開源大語言模型将在各個領域（包括醫療、金融、電子商務和制造業等）發揮越來越重要的作用，必然導緻全面的推動人工智能普及。

名詞诠釋：

LLaMA（Large Language Model Meta AI）：它是一個由Meta（Facebook）開發的基礎大語言模型，是一個開源的大語言模型。基于傳統的變壓器架構，并包括一些最近的訓練進展，如預标準化（如GPT-3中所見）、SwiGLU激活函數（用于PaLM）和旋轉嵌入（應用于GPTNeo）》。LLaMA模型的推理代碼可以在GitHub（全球最大的代碼開源網站）上找到。

Transformer架構：使用不依賴于循環和卷積的編碼器-解碼器結構來生成輸出。編碼器将輸入序列映射到一系列連續表示。解碼器接收編碼器的輸出和解碼器在前一個時間步的輸出，并生成輸出序列。

FlashAttention：是一種快速且節省記憶體的注意力算法，它通過重新排序注意力計算并利用經典技術（如分塊和重計算）來顯著提高速度并将記憶體使用量從序列長度的平方降低到線性。它旨在避免從高帶寬記憶體（HBM）中讀取和寫入注意力矩陣，這需要在不通路整個輸入的情況下計算softmax reduction，并且在後向傳播中不能存儲中間注意力矩陣。FlashAttention可以加速BERT/GPT-2的速度，最多可提高3倍，并允許使用長上下文（最多16k）進行訓練。

NLP（Natural Language Processing）：自然語言處理是人工智能領域的一個分支，它旨在使計算機能夠了解、解釋和生成人類語言。NLP技術可以用于各種應用，如語音識别、機器翻譯、情感分析、文本摘要和問答系統等。NLP技術的發展為人類與計算機之間的互動提供了更多的可能性。

又開源了：AI的開源大語言模型正成為人工智能領域的一種新趨勢

名詞诠釋：

繼續閱讀

人工智能驅動的“深度醫學”正在變革目前醫療保健實踐

日媒觀察：中國雲服務提供商仍在等待人工智能的雨露滋潤

人工智能向新而行，行業大模型推動新質生産力，賦能千行百業

人工智能助手感悟親情：孫衛東博士的孤獨流浪與家庭紐帶之重要性

人工智能與外星文明，人類未來的兩個威脅，哪個會先到來？

以色列上校将中國做為假想敵，提醒防範中國的人工智能網絡攻擊

《我是領袖》AI人工智能探索未來

抓住人工智能這個“牛鼻子”，加快培育發展新質生産力

觀點｜人工智能時代博物館如何緻力于教育和研究

人工智能發展如何影響勞動力就業

2024 年十大人工智能晶片制造公司

人工智能的原理是什麼？

馬斯克：給我特斯拉25%股份，否則剝離人工智能和機器人技術

中科彙聯2024第五屆科創彙聯人工智能發展高峰論壇在京圓滿落幕

科技巨頭積極布局AI領域！微軟将召開年度開發者大會，或透露人工智能PC計劃

醫學人工智能向“新”而行