編輯:LRS
【新智元導讀】Aya23在模型性能和語言種類覆寫度上達到了平衡,其中最大的35B參數量模型在所有評估任務和涵蓋的語言中取得了最好成績。
雖然LLM在過去幾年中蓬勃發展,但該領域的大部分工作都是以英語為中心的,也就是說,雖然模型的能力很強,但也僅限于英語、漢語等使用人數多的語言,在處理資源匮乏的語言時往往性能不佳。
想要破局多語言,兩個關鍵在于強大的多語言預訓練模型以及足量的、涵蓋多種語言的指令訓練資料。
為了解決上述問題,最近,加拿大的獨角獸AI公司Cohere開源了兩種尺寸(8B和35B)的多語言模型Aya23,其中Aya-23-35B在所有評估任務和涵蓋的語言中取得了最好成績。
論文連結:
https://cohere.com/research/papers/aya-command-23-8b-and-35b-technical-report-2024-05-23
Aya-23-8B: https://huggingface.co/CohereForAI/aya-23-8B
Aya-23-35B: https://huggingface.co/CohereForAI/aya-23-35B
覆寫的23種語言分别為阿拉伯語、中文(簡體和繁體)、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語。
作為Aya計劃的一部分,Cohere最初與來自 119 個國家的 3,000 多名獨立研究人員一起建立了一個龐大的多語言指令資料集Aya Collection,包含5.13 億個提示和補全樣本,并用該資料訓練了一個覆寫101種語言的語言模型Aya 101,并于2024年2月開源。
但Aya 101模型的基礎是mT5,在知識和性能方面都已經過時了,并且Aya 101主要側重于覆寫度,在某些特定語言的性能表現上不佳。
此次開源的Aya-23模型,其設計目标是在語言廣度和深度上實作平衡,從本質上來講,所有Aya系列的模型都基于 Cohere 的 Command 系列模型和 Aya Collection,但本次的重點是将更多容量配置設定給主要的23種語言,以改善目智語言的生成效果。
多語言模型Aya 23
預訓練模型架構
Aya 23模型家族是一系列基于Cohere Command系列的預訓練模型,模型在訓練時使用了23種不同語言的文本資料;Aya-23-35B是Cohere Command R模型的一個改進版本,經過了進一步的微調以提高性能。
模型采用了标準的decoder-only Transformer架構:
1. 并行注意力和前饋網絡(FFN)層:類似于PALM-2,使用并行塊架構,在不損害模型品質的情況下,顯著提高了訓練效率,特别是在張量并行(TP)設定中,即在多個處理器或裝置上同時訓練模型的不同部分。
2. SwiGLU激活函數:SwiGLU比其他激活函數具有更高的下遊性能,研究人員調整了前饋網絡(FFN)層的次元,以保持與非SwiGLU激活函數相比大緻相同數量的可訓練參數。
3. 無偏置:從稠密層中移除了所有偏置項(bias),以提高訓練穩定性。
4. RoPE(旋轉位置嵌入):可以幫助模型更好地了解和推斷長文本中的上下文資訊。RoPE在處理短文本時也能提供比ALiBi等其他相對位置編碼方法更好的性能。
5. 分詞器:模型使用了一個大小為256k的位元組對編碼(Byte Pair Encoding, BPE)分詞器。在分詞過程中,執行了NFC(Normalization Form C)規範化,即文本在分詞前會被标準化,以確定一緻性。數字被拆分成單獨的token,以便于模型更好地了解和處理數字資訊。分詞器是在預訓練資料集的一個平衡子集上訓練的,以確定不同語言的文本都能得到高效的表征。
6. 分組查詢注意力(GQA):每個鍵值(KV)頭與多個查詢(Q)頭共享,可以降低模型推理時記憶體的使用,提高效率。
指令微調
由于多語言指令資料相對稀缺,研究人員采用了多種政策來增強資料的可用性:
1. 多語言模闆:利用結構化文本,将特定的自然語言處理(NLP)資料集轉換成指令和回複對。用到資料集包括xP3x資料集和Aya資料集的樣本,最終形成了一個包含5570萬個樣本的大型資料集合,覆寫了23種語言和161個不同的資料集。
2. 人工标注:Aya資料集包含了由65種語言的母語者編寫的204,000對人工策劃的提示-響應對。我們從中篩選出我們訓練模型所使用的23種語言的資料,得到了55,000個樣本。
3. 翻譯資料:使用了從廣泛使用的英語指令資料集進行翻譯的樣本,從不同資料集、不同語言中随機抽取以保持多樣性,最終資料包含了110萬個樣本。
4. 合成資料:使用了ShareGPT5和Dolly-15k的人工标注提示,不同的是,Aya使用了Cohere的Command R+為所有23種語言生成翻譯後的ShareGPT和Dolly提示的多語言響應,最終得到了163萬個樣本。
實驗評估
判别式任務
研究人員使用了不同模型在14種語言上的多語言機器學習了解(MMLU)基準上進行測試,選用的語言是Aya 23系列模型所支援的多語言MMLU測試語言的一個子集。
是根據英語MMLU的測試标準,采用了5-shot評估方法,與zero-shot未見任務相似的情況下,Aya-23-8B模型在所有比較的較小模型中表現最佳,在所有測試的語言上平均準确率達到了48.2%,并且在14種語言中的11種語言上取得了其類别中的最高分數。
當對比更大尺寸的模型時,Aya-23-35B模型在平均得分上超過了Mixtral-8x7B-Inst模型(分别為58.2%和57.1%)。
盡管Mixtral在資源豐富的語言上表現略好,但Aya-23-35B在非歐洲語言上的表現尤為突出,例如在阿拉伯語、印地語和越南語上,Aya-23-35B的準确率分别提高了12.1%、10.0%和6.5%。這表明Aya-23-35B在處理資源較少或非歐洲語言時,具有更強的性能。
多語言數學推理
在數學問題解決能力測試(MGSM)中,Aya 23系列的模型在所有同類基線模型中表現最為出色,表明模型具備了在不同語言中進行強大數學推理的能力。
具體來說,Aya-23-8B模型在7種語言上的平均得分高達36.6分,而同類中排名第二的Gemma-1.1-7b模型得分為34.0分。
特别引人注目的是,Aya-23-8B模型的性能是Aya-101-13B模型(得分8.1分)的4.5倍,這再次強調了高品質預訓練模型的重要性。
對于規模更大的模型,Aya-23-35B模型以53.7分的成績超過了Mixtral-8x7B-Instruct-v0.1模型的50.2分。
在個别語言的得分方面,除了Aya-23-8B模型在法語和俄語上的得分,以及Aya-23-35B模型在日語上的得分之外,Aya 23系列模型在每種語言上都超越了同類中最強的模型,表明Aya 23系列模型在解決數學問題的能力上普遍優于同類模型,盡管在某些特定語言上可能仍需進一步的優化。
生成式任務
研究人員還測試了Aya 23系列模型在23種語言與英語配對的翻譯任務(FLORES),以及15種語言的摘要任務(XLSum)。
在評估基準中,Aya 23系列模型的表現明顯優于其他相似規模的模型。
具體來說,Aya-23-8B模型在翻譯任務中的平均spBleu得分為37.2,比排名第二的Aya-101-13B模型高出4分;在摘要任務中,Aya-23-8B和Aya-101-13B模型的平均RougeL得分為27.5,比下一個最佳模型Gemma-1.1高出14.5分。
在大型模型的對比中,Aya-23-35B在翻譯任務中以7.8分(40.4 vs 32.6)的spBleu得分優勢超越了Mixtral-8x7B,在摘要任務中則以23.8分(30.9 vs 7.1)的優勢超越。
還可以注意到,Mistral-7B和Mixtral-8x7B模型傾向于在提示中生成英語回複,也導緻了模型在多語言摘要任務中的性能不佳。