天天看點

又開源了:AI的開源大語言模型正成為人工智能領域的一種新趨勢

作者:科技棒棒

随着人工智能技術的不斷發展,大語言模型(LLM)已成為研究和商業應用的熱門領域。目前我們發現一個新的動向,開源的大語言模型成為了一種新的趨勢,它們為研究人員和企業提供了一個強大且靈活的工具,可以用來開發和部署先進的人工智能應用。

又開源了:AI的開源大語言模型正成為人工智能領域的一種新趨勢

例如,MosaicML就在本月釋出了一系列基于其MPT-7B架構的開源大語言模型。這些模型擁有七十億個參數,并且具有一個可擴充到64,000個令牌的上下文視窗,這意味着它們可以一次性處理數百頁文檔中的文本。與大多數LLMs不同,如Meta的LLaMA模型,僅可用于研究目的,MPT-7B支援商業應用。

此外,MosaicML還釋出了一個更強大的開源模型——MPT-30B。是300億參數規模的基礎大語言模型,是我們基礎系列模型的一員,使用8k上下文長度在H100s上進行了訓練。MPT-30B擁有一些特殊功能,使其與其他LLMs不同,包括在訓練時使用8k令牌上下文視窗,通過ALiBi支援更長的上下文,并通過FlashAttention實作高效推理+訓練性能。它使用了一個為高效訓練和推理而優化的transformer架構,并在1T tokens的英文文本和代碼上從頭訓練。

與主流大語言模型的一些對比:

大語言模型名稱 參數 規模 商業開源 所屬
MPT-30B 300億 中等的 已開源 MosaicML
MPT-7B 67億 中等的 已開源 MosaicML
OpenLLaMA 30億、70億、130億 可選規格 已開源 Mate
LaMDA 1370億 大型 未開源 Google
GPT-3 1750億 大型 未開源 OpenAI
Jurassic-1 Jumbo 1780億 巨型 未開源 AI21 Labs

此外,還有許多其他流行的開源大語言模型,如GPT-Neo、GPT-J和GPT-NeoX。這些模型使用了一個新穎的架構,可以更有效地處理長序列資料。XLNet是由卡内基梅隆大學和谷歌的研究人員開發的一種新型模型,用于執行NLP任務,如閱讀了解、文本分類、情感分析等。它采用了一種新穎的預訓練方法,可以更好地捕捉長距離依賴關系。

還有的開源大語言模型,如Roberta、DeBERTa、XLM-RoBERTa和DistilBERT。這些模型采用了不同的預訓練方法和資料集,以提高它們在各種NLP任務上的性能。

這些開源模型為企業提供了一個快速、經濟、安全地建構和部署自己的人工智能應用的途徑。它們可以直接用于推理,也可以作為建構專有模型的起點。此外,由于這些模型是開源的,企業可以在不洩露資料或妥協資料隐私的情況下使用它們。

又開源了:AI的開源大語言模型正成為人工智能領域的一種新趨勢

總之,開源大語言模型正成為人工智能領域的一種新趨勢。它們為研究人員和企業提供了一個強大且靈活的工具,可以用來開發和部署先進的人工智能應用。随着技術的不斷發展和成本的降低,我們可以預見,在未來幾年内,開源大語言模型将在各個領域(包括醫療、金融、電子商務和制造業等)發揮越來越重要的作用,必然導緻全面的推動人工智能普及。

名詞诠釋:

又開源了:AI的開源大語言模型正成為人工智能領域的一種新趨勢

LLaMA(Large Language Model Meta AI):它是一個由Meta(Facebook)開發的基礎大語言模型,是一個開源的大語言模型。基于傳統的變壓器架構,并包括一些最近的訓練進展,如預标準化(如GPT-3中所見)、SwiGLU激活函數(用于PaLM)和旋轉嵌入(應用于GPTNeo)》。LLaMA模型的推理代碼可以在GitHub(全球最大的代碼開源網站)上找到。

Transformer架構:使用不依賴于循環和卷積的編碼器-解碼器結構來生成輸出。編碼器将輸入序列映射到一系列連續表示。解碼器接收編碼器的輸出和解碼器在前一個時間步的輸出,并生成輸出序列。

FlashAttention:是一種快速且節省記憶體的注意力算法,它通過重新排序注意力計算并利用經典技術(如分塊和重計算)來顯著提高速度并将記憶體使用量從序列長度的平方降低到線性。它旨在避免從高帶寬記憶體(HBM)中讀取和寫入注意力矩陣,這需要在不通路整個輸入的情況下計算softmax reduction,并且在後向傳播中不能存儲中間注意力矩陣。FlashAttention可以加速BERT/GPT-2的速度,最多可提高3倍,并允許使用長上下文(最多16k)進行訓練。

NLP(Natural Language Processing):自然語言處理是人工智能領域的一個分支,它旨在使計算機能夠了解、解釋和生成人類語言。NLP技術可以用于各種應用,如語音識别、機器翻譯、情感分析、文本摘要和問答系統等。NLP技術的發展為人類與計算機之間的互動提供了更多的可能性。

繼續閱讀