天天看點

碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練

作者:新智元

編輯:潤 拉燕

【新智元導讀】來自阿聯酋的免費商用開源大模型登頂Hagging Face排行榜,AI大模型創業者的春天就這樣到來了。

大模型時代,什麼最重要?

LeCun曾經給出的答案是:開源。

碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練

當Meta的LLaMA的代碼在GitHub上被洩露時,全球的開發者們都可以通路這個第一個達到GPT水準的LLM。

接下來,各種各樣的LLM給AI模型開源賦予了各種各樣的角度。

LLaMA給斯坦福的Alpac和Vicuna等模型鋪設了道路,搭好了舞台,讓他們成為了開源的領頭羊。

而就在此時,獵鷹「Falcon」又殺出了重圍。

碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練

Falcon 獵鷹

「Falcon」由阿聯酋阿布紮比的技術創新研究所(TII)開發,從性能上看,Falcon比LLaMA的表現更好。

目前,「Falcon」有三個版本——1B、7B和40B。

TII表示,Falcon迄今為止最強大的開源語言模型。其最大的版本,Falcon 40B,擁有400億參數,相對于擁有650億參數的LLaMA來說,規模上還是小了一點。

規模雖小,性能能打。

先進技術研究委員會(ATRC)秘書長Faisal Al Bannai認為,「Falcon」的釋出将打破LLM的擷取方式,并讓研究人員和創業者能夠以此提出最具創新性的使用案例。

碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練

FalconLM的兩個版本,Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前兩名,而Meta的LLaMA位于第三。

碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練

值得一提的是,Hugging Face是通過四個目前比較流形的基準——AI2 Reasoning Challenge,HellaSwag,MMLU和TruthfulQA對這些模型進行評估的。

盡管「Falcon」的論文目前還沒公開釋出,但Falcon 40B已經在經過精心篩選的1萬億token網絡資料集的上進行了大量訓練。

研究人員透露,「Falcon」在訓練過程非常重視在大規模資料上實作高性能的重要性。

我們都知道的是,LLM對訓練資料的品質非常敏感,這就是為什麼研究人員會花大量的精力建構一個能夠在數萬個CPU核心上進行高效處理的資料管道。

目的就是,在過濾和去重的基礎上從網絡中提取高品質的内容。

目前,TII已經釋出了精煉的網絡資料集,這是一個經過精心過濾和去重的資料集。實踐證明,非常有效。

僅用這個資料集訓練的模型可以和其它LLM打個平手,甚至在性能上超過他們。這展示出了「Falcon」卓越的品質和影響力。

碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練

此外,Falcon模型也具有多語言的能力。

它了解英語、德語、西班牙語和法語,并且在荷蘭語、意大利語、羅馬尼亞語、葡萄牙語、捷克語、波蘭語和瑞典語等一些歐洲小語種上也懂得不少。

Falcon 40B還是繼H2O.ai模型釋出後,第二個真正開源的模型。然而,由于H2O.ai并未在此排行榜上與其他模型進行基準對比,是以這兩個模型還沒上過擂台。

而回過頭看LLaMA,盡管它的代碼在GitHub上可以擷取,但它的權重(weights)從未開源。

這意味着該模型的商業使用受到了一定程度的限制。

而且,LLaMA的所有版本都依賴于原始的LLaMA許可證,這就使得LLaMA不适合小規模的商業應用。

在這一點上,「Falcon」又拔得了頭籌。

唯一免費的商用大模型!

Falcon是目前唯一的可以免費商用的開源模型。

在早期,TII要求,商業用途使用Falcon,如果産生了超過100萬美元以上的可歸因收入,将會收取10%的「使用稅」。

可是财大氣粗的中東土豪們沒過多長時間就取消了這個限制。

至少到目前為止,所有對Falcon的商業化使用和微調都不會收取任何費用。

土豪們表示,現在暫時不需要通過這個模型掙錢。

碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練

而且,TII還在全球征集商用化方案。

對于有潛力的科研和商業化方案,他們還會提供更多的「訓練算力支援」,或者提供進一步的商業化機會。

碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練

項目送出郵箱:[email protected]

這簡直就是在說:隻要項目好,模型免費用!算力管夠!錢不夠我們還能給你湊!

對于初創企業來說,這簡直就是來自中東土豪的「AI大模型創業一站式解決方案」。

碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練

高品質的訓練資料

根據開發團隊稱,FalconLM 競争優勢的一個重要方面是訓練資料的選擇。

研究團隊開發了一個從公共爬網資料集中提取高品質資料并删除重複資料的流程。

在徹底清理多餘重複内容後,保留了 5 萬億的token——足以訓練強大的語言模型。

40B的Falcon LM使用1萬億個token進行訓練, 7B版本的模型訓練token達到 1.5 萬億。

碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練

(研究團隊的目标是使用RefinedWeb資料集從Common Crawl中僅過濾出品質最高的原始資料)

更加可控的訓練成本

TII稱,與GPT-3相比,Falcon在隻使用75%的訓練計算預算的情況下,就實作了顯著的性能提升。

碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練
碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練

而且在推斷(Inference)時隻需要隻需要20%的計算時間。

Falcon的訓練成本,隻相當于Chinchilla的40%和PaLM-62B的80% 。

成功實作了計算資源的高效利用。

參考資料:

https://analyticsindiamag.com/open-source-ai-has-a-new-champion/

繼續閱讀