天天看點

1.5萬億訓練資料,8000輸入長度,可商業!Salesforce開源XGen-7B

全球排名第一CRM廠商Salesforce開源了,70億參數的類ChatGPT大語言模型XGen-7B。(開源位址:https://github.com/salesforce/xgen)

XGen主要亮點功能包括:支援超長8000内容輸入長度,同類開源産品多數都在2000左右;在1.5萬億tokens資料集上進行訓練,Salesforce認為,參數并不是提升大語言模型性能的唯一标準,在海量優質資料上進行訓練同樣非常重要;

除了文本、還支援多種代碼生成;資源消耗低性能強大,支援Apache-2.0允許商業化。目前,XGen推出了4K、8K兩個商業化版,以及8K指令微調(隻能用于技術研究)版本。

1.5萬億訓練資料,8000輸入長度,可商業!Salesforce開源XGen-7B

Salesforce是全球對ChatGPT等生成式AI投入大量資源、最積極的科技巨頭之一,非常看好其未來發展。例如,Salesforce成立了一個5億美元的專注投資生成式AI的基金,并參與了近期多家生成式AI廠商的融資;宣布将在雲計算、CRM、人力資源等多個産品矩陣中內建生成式AI等。

1.5萬億訓練資料,8000輸入長度,可商業!Salesforce開源XGen-7B

Salesforce在訓練XGen-7B時,采用了兩個階段訓練政策,并且每個階段都使用了不同的資料混合來源。

第一階段,1.37萬億tokens資料,主要包括來自RedPajama提供的普通抓取資料、GitHub、書籍、ArXiv以及C4、維基百科等資料。

其中,對來自C4的資料進行了删除重複資料處理;維基百科的資料包括英文本和bg、ca、cs、da,、de、en、es等22種語言其他資料。

1.5萬億訓練資料,8000輸入長度,可商業!Salesforce開源XGen-7B

第二階段1100億tokens資料。該階段主要來自Starcoder(開源位址:https://github.com/bigcode-project/starcoder)的代碼資料,并與第一階段的資料進行了混合,使得XGen具備生成代碼的能力。

1.5萬億訓練資料,8000輸入長度,可商業!Salesforce開源XGen-7B

此外,開發團隊還使用了OpenAI開源的tiktoken(位址:https://github.com/openai/tiktoken)對資料集進行了标記,包括為連續的空格和制表符添加額外的标記和特殊标記。

1.5萬億訓練資料,8000輸入長度,可商業!Salesforce開源XGen-7B

開發團隊在測試XGen-7B的性能時,采用了原始統一的MMLU标準進行了評估。MMLU 5-shot 上下文學習結果:XGen-7B在人文學科、社會科學等欄目中取得了最佳效果,超過了LLaMA-7b、OpenLLaMA-7b、Redpajama-7b、Dolly-v2-12b等知名同類開源項目。

1.5萬億訓練資料,8000輸入長度,可商業!Salesforce開源XGen-7B

MMLU 0樣本測試:在零樣本MMLU 上,XGen-7B同樣取得了出色的成績,性能上與LLaMA-7B基本持平。

1.5萬億訓練資料,8000輸入長度,可商業!Salesforce開源XGen-7B

為了測試XGen-7B的代碼生成能力,開發團隊在著名的HumanEval基準上進行了評估。将采樣熱度設定為0.2,p設定為 0.95(對于top-p采樣),将num_samples_per_task (n) 設定為200。

測試結果顯示,XGen-7B的代碼生成能力超過了LLaMA-7b、Redpajama-7b等,僅次于MPT-7b。

1.5萬億訓練資料,8000輸入長度,可商業!Salesforce開源XGen-7B

為了測試XGen-7B的長對話、文本摘要能力,開發團隊使用AMI會議摘要、ForeverDreaming和TMS劇本摘要。

這3個資料集的平均長度分别約為5570、6466和 7653,開發團隊使用各種指令調整模型專門評估長度小于8000的樣本。結果顯示,XGen-7B全部取得了出色的結果。

1.5萬億訓練資料,8000輸入長度,可商業!Salesforce開源XGen-7B

總體來說,對于那些想使用長文本輸入,想應用于商業化,算力有限的廠商來說XGen-7B是一個不錯的選擇。需要注意的是,XGen-7B與其他大語言模型一樣,可能會出現幻覺、虛假資訊、偏見、非法輸出等行為,但Salesforce會持續對其進行優化、疊代戰勝這些困難。

關于Salesforce

Salesforce創立于1999年,總部位于美國舊金山,主要提供營銷雲、服務雲、銷售雲、軟體開發等,是全球最大SaaS企業之一。Salesforce在全球擁有近8萬名員工,市值約1530億美元,年收入超過300億美元。

繼續閱讀