IT之家 4 月 24 日消息,在 WWDC24 之前,蘋果在 Hugging Face 平台上釋出了一個“具有開源訓練和推理架構的高效語言模型”,名為 OpenELM。
當然,這是一項開源語言模型,其源碼及預訓練的模型權重和訓練配方可在蘋果 Github 庫中擷取。
IT之家将官方簡介翻譯如下:
大型語言模型的可重複性和透明性對于推進開放研究、確定結果的可信度以及調查資料和模型偏差以及潛在風險至關重要。為此,我們釋出了 OpenELM,一個最先進的開源語言模型。
OpenELM 使用分層縮放政策,可以有效地配置設定 Transformer 模型每一層的參數,進而提高準确率。例如,在參數量約為 10 億的情況下,OpenELM 與 OLMo 相比準确率提升了 2.36%,同時所需的預訓練 tokens 數量僅有原來的 50%。
![]()
蘋果釋出OpenELM,基于開源訓練和推理架構的高效語言模型 與以往隻提供模型權重和推理代碼并在私有資料集上進行預訓練的做法不同,我們釋出的版本包含了在公開資料集上訓練和評估語言模型的完整架構,包括訓練日志、多個檢查點和預訓練配置。
我們還釋出了将模型轉換為 MLX 庫的代碼,以便在蘋果裝置上進行推理和微調。此次全面釋出旨在增強和鞏固開放研究社群,為未來的開放研究工作鋪平道路。
參考資料: