天天看點

多語言大模型新SOTA!最新開源Aya-23:支援23種語言,8B/35B可選

編輯:LRS

【新智元導讀】Aya23在模型性能和語言種類覆寫度上達到了平衡,其中最大的35B參數量模型在所有評估任務和涵蓋的語言中取得了最好成績。

雖然LLM在過去幾年中蓬勃發展,但該領域的大部分工作都是以英語為中心的,也就是說,雖然模型的能力很強,但也僅限于英語、漢語等使用人數多的語言,在處理資源匮乏的語言時往往性能不佳。

想要破局多語言,兩個關鍵在于強大的多語言預訓練模型以及足量的、涵蓋多種語言的指令訓練資料。

為了解決上述問題,最近,加拿大的獨角獸AI公司Cohere開源了兩種尺寸(8B和35B)的多語言模型Aya23,其中Aya-23-35B在所有評估任務和涵蓋的語言中取得了最好成績。

多語言大模型新SOTA!最新開源Aya-23:支援23種語言,8B/35B可選

論文連結:

https://cohere.com/research/papers/aya-command-23-8b-and-35b-technical-report-2024-05-23

Aya-23-8B: https://huggingface.co/CohereForAI/aya-23-8B

Aya-23-35B: https://huggingface.co/CohereForAI/aya-23-35B

覆寫的23種語言分别為阿拉伯語、中文(簡體和繁體)、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語。

作為Aya計劃的一部分,Cohere最初與來自 119 個國家的 3,000 多名獨立研究人員一起建立了一個龐大的多語言指令資料集Aya Collection,包含5.13 億個提示和補全樣本,并用該資料訓練了一個覆寫101種語言的語言模型Aya 101,并于2024年2月開源。

但Aya 101模型的基礎是mT5,在知識和性能方面都已經過時了,并且Aya 101主要側重于覆寫度,在某些特定語言的性能表現上不佳。

此次開源的Aya-23模型,其設計目标是在語言廣度和深度上實作平衡,從本質上來講,所有Aya系列的模型都基于 Cohere 的 Command 系列模型和 Aya Collection,但本次的重點是将更多容量配置設定給主要的23種語言,以改善目智語言的生成效果。

多語言模型Aya 23

預訓練模型架構

Aya 23模型家族是一系列基于Cohere Command系列的預訓練模型,模型在訓練時使用了23種不同語言的文本資料;Aya-23-35B是Cohere Command R模型的一個改進版本,經過了進一步的微調以提高性能。

模型采用了标準的decoder-only Transformer架構:

1. 并行注意力和前饋網絡(FFN)層:類似于PALM-2,使用并行塊架構,在不損害模型品質的情況下,顯著提高了訓練效率,特别是在張量并行(TP)設定中,即在多個處理器或裝置上同時訓練模型的不同部分。

2. SwiGLU激活函數:SwiGLU比其他激活函數具有更高的下遊性能,研究人員調整了前饋網絡(FFN)層的次元,以保持與非SwiGLU激活函數相比大緻相同數量的可訓練參數。

3. 無偏置:從稠密層中移除了所有偏置項(bias),以提高訓練穩定性。

多語言大模型新SOTA!最新開源Aya-23:支援23種語言,8B/35B可選

4. RoPE(旋轉位置嵌入):可以幫助模型更好地了解和推斷長文本中的上下文資訊。RoPE在處理短文本時也能提供比ALiBi等其他相對位置編碼方法更好的性能。

5. 分詞器:模型使用了一個大小為256k的位元組對編碼(Byte Pair Encoding, BPE)分詞器。在分詞過程中,執行了NFC(Normalization Form C)規範化,即文本在分詞前會被标準化,以確定一緻性。數字被拆分成單獨的token,以便于模型更好地了解和處理數字資訊。分詞器是在預訓練資料集的一個平衡子集上訓練的,以確定不同語言的文本都能得到高效的表征。

6. 分組查詢注意力(GQA):每個鍵值(KV)頭與多個查詢(Q)頭共享,可以降低模型推理時記憶體的使用,提高效率。

指令微調

由于多語言指令資料相對稀缺,研究人員采用了多種政策來增強資料的可用性:

1. 多語言模闆:利用結構化文本,将特定的自然語言處理(NLP)資料集轉換成指令和回複對。用到資料集包括xP3x資料集和Aya資料集的樣本,最終形成了一個包含5570萬個樣本的大型資料集合,覆寫了23種語言和161個不同的資料集。

2. 人工标注:Aya資料集包含了由65種語言的母語者編寫的204,000對人工策劃的提示-響應對。我們從中篩選出我們訓練模型所使用的23種語言的資料,得到了55,000個樣本。

3. 翻譯資料:使用了從廣泛使用的英語指令資料集進行翻譯的樣本,從不同資料集、不同語言中随機抽取以保持多樣性,最終資料包含了110萬個樣本。

4. 合成資料:使用了ShareGPT5和Dolly-15k的人工标注提示,不同的是,Aya使用了Cohere的Command R+為所有23種語言生成翻譯後的ShareGPT和Dolly提示的多語言響應,最終得到了163萬個樣本。

實驗評估

判别式任務

研究人員使用了不同模型在14種語言上的多語言機器學習了解(MMLU)基準上進行測試,選用的語言是Aya 23系列模型所支援的多語言MMLU測試語言的一個子集。

是根據英語MMLU的測試标準,采用了5-shot評估方法,與zero-shot未見任務相似的情況下,Aya-23-8B模型在所有比較的較小模型中表現最佳,在所有測試的語言上平均準确率達到了48.2%,并且在14種語言中的11種語言上取得了其類别中的最高分數。

多語言大模型新SOTA!最新開源Aya-23:支援23種語言,8B/35B可選

當對比更大尺寸的模型時,Aya-23-35B模型在平均得分上超過了Mixtral-8x7B-Inst模型(分别為58.2%和57.1%)。

盡管Mixtral在資源豐富的語言上表現略好,但Aya-23-35B在非歐洲語言上的表現尤為突出,例如在阿拉伯語、印地語和越南語上,Aya-23-35B的準确率分别提高了12.1%、10.0%和6.5%。這表明Aya-23-35B在處理資源較少或非歐洲語言時,具有更強的性能。

多語言數學推理

在數學問題解決能力測試(MGSM)中,Aya 23系列的模型在所有同類基線模型中表現最為出色,表明模型具備了在不同語言中進行強大數學推理的能力。

具體來說,Aya-23-8B模型在7種語言上的平均得分高達36.6分,而同類中排名第二的Gemma-1.1-7b模型得分為34.0分。

多語言大模型新SOTA!最新開源Aya-23:支援23種語言,8B/35B可選

特别引人注目的是,Aya-23-8B模型的性能是Aya-101-13B模型(得分8.1分)的4.5倍,這再次強調了高品質預訓練模型的重要性。

對于規模更大的模型,Aya-23-35B模型以53.7分的成績超過了Mixtral-8x7B-Instruct-v0.1模型的50.2分。

在個别語言的得分方面,除了Aya-23-8B模型在法語和俄語上的得分,以及Aya-23-35B模型在日語上的得分之外,Aya 23系列模型在每種語言上都超越了同類中最強的模型,表明Aya 23系列模型在解決數學問題的能力上普遍優于同類模型,盡管在某些特定語言上可能仍需進一步的優化。

生成式任務

研究人員還測試了Aya 23系列模型在23種語言與英語配對的翻譯任務(FLORES),以及15種語言的摘要任務(XLSum)。

在評估基準中,Aya 23系列模型的表現明顯優于其他相似規模的模型。

具體來說,Aya-23-8B模型在翻譯任務中的平均spBleu得分為37.2,比排名第二的Aya-101-13B模型高出4分;在摘要任務中,Aya-23-8B和Aya-101-13B模型的平均RougeL得分為27.5,比下一個最佳模型Gemma-1.1高出14.5分。

多語言大模型新SOTA!最新開源Aya-23:支援23種語言,8B/35B可選

在大型模型的對比中,Aya-23-35B在翻譯任務中以7.8分(40.4 vs 32.6)的spBleu得分優勢超越了Mixtral-8x7B,在摘要任務中則以23.8分(30.9 vs 7.1)的優勢超越。

還可以注意到,Mistral-7B和Mixtral-8x7B模型傾向于在提示中生成英語回複,也導緻了模型在多語言摘要任務中的性能不佳。

繼續閱讀