天天看點

神秘武器揭秘:UC伯克利推出超高效大語言模型推理引擎vLLM近期,UC伯克利的研究人員在ChatbotArena擂台為大

作者:AI改變萬物

神秘武器揭秘:UC伯克利推出超高效大語言模型推理引擎vLLM

近期,UC伯克利的研究人員在Chatbot Arena擂台為大語言模型(LLM)組織了一場排位賽。為此,他們開發了世界上最快的LLM推斷和服務系統vLLM,并将其開源。vLLM是一個開源的LLM推斷和服務引擎,利用全新的注意力算法“PagedAttention”有效地管理注意力鍵和值。vLLM的性能可以達到HuggingFace Transformers的24倍,且無需進行模型架構更改,被譽為Chatbot Arena背後的秘密武器。

PagedAttention,這一受到作業系統中虛拟記憶體和分頁概念啟發的注意力算法,降低了記憶體浪費,提高了吞吐量。實驗中,vLLM的吞吐量比HuggingFace高達24倍,比文本生成推理高3.5倍。

vLLM推出後,相信未來,即使是擁有有限計算資源的小型研究團隊也能輕松部署自己的LLM服務。團隊已在GitHub倉庫中釋出vLLM的具體使用方法和相關指南。整個項目位址為:網頁連結

神秘武器揭秘:UC伯克利推出超高效大語言模型推理引擎vLLM近期,UC伯克利的研究人員在ChatbotArena擂台為大
神秘武器揭秘:UC伯克利推出超高效大語言模型推理引擎vLLM近期,UC伯克利的研究人員在ChatbotArena擂台為大
神秘武器揭秘:UC伯克利推出超高效大語言模型推理引擎vLLM近期,UC伯克利的研究人員在ChatbotArena擂台為大
神秘武器揭秘:UC伯克利推出超高效大語言模型推理引擎vLLM近期,UC伯克利的研究人員在ChatbotArena擂台為大

繼續閱讀