天天看點

蘋果釋出 OpenELM:專為在裝置端運作而設計的小型開源 AI 模型

作者:InfoQ

作者 | Tina、核子可樂

今天,蘋果破天荒整了個大新聞。

蘋果開源了一個在裝置端運作的 AI 模型 OpenELM,同時還公開了代碼、權重、資料集、訓練全過程。

就像谷歌、三星及微軟着力在 PC 和移動裝置端推動生成式 AI 模型的開發一樣,蘋果也加入了這一行列。這是一個新的開源大語言模型(LLM)家族,能夠依托單一裝置平台運作,完全無需借助雲伺服器。

OpenELM 已經于日前在 AI 代碼社群 Huggang Face 上釋出,由多個旨在高效執行文本生成任務的小模型組成。

蘋果釋出 OpenELM:專為在裝置端運作而設計的小型開源 AI 模型

蘋果投身開源 AI 戰局,在 Hugging Face 上釋出四種新模型!

OpenELM 模型家族共有八位成員,其中四個為預訓練模型,另外四個為指令微調模型,參數規模在 2.7 億到 30 億之間(即大模型中人工神經元之間的連接配接數量,參數越多通常意味着性能更好、功能更強,但并不絕對)。而微軟 Phi-3 模型為 38 億。

預訓練是讓大模型得以生成連續、可用文本的重要方法,而指令微調則能夠讓模型以相關度更高的輸出響應使用者的特定請求。具體來講,預訓練而成的模型往往會通過在提示詞的基礎上添加新文本來完成要求,例如面對使用者的“教我如何烤面包”這條提示詞,模型可能并不會給出分步說明,反而傻傻回答稱“用家用烤箱烤”。而這個問題恰好可以通過指令微調來解決。

OpenELM 通過采用層級縮放政策、在公開資料集預訓練後微調,實作了 Transformer 語言模型效果的改進。是以,OpenELM 的 transformer layers 不是具有相同的參數集,而是具有不同的配置和參數。這樣的政策能讓模型精度顯著提高。例如,在大約十億參數的預算下,OpenELM 的準确率較 OLMo 提升了 2.36%,且預訓練所需的 Token 數量減少了一半。

蘋果在其所謂“示例代碼許可證”下釋出了 OpenELM 模型的權重,以及訓練中的不同檢查點、模型性能統計資料以及預訓練、評估、指令微調與參數效率調優的說明。網友點評說,“可以說對開發者來說很友好了,畢竟深度網絡的很大一部分難點存在參數調節。”

蘋果釋出 OpenELM:專為在裝置端運作而設計的小型開源 AI 模型

蘋果的示例代碼許可證并不禁止商業使用或修改,僅要求“如果您以完整且未經修改的方式重新釋出蘋果軟體,則必須在所有此類釋出中保留本通知以及以下文本與免責聲明。”

該許可不是公認的開源許可證,雖然蘋果也沒有做過度的限制,但它确實明确表明,如果任何基于 OpenELM 的衍生作品被認為侵犯了其權利,蘋果保留提出專利索賠的權利。

蘋果公司還進一步強調,這些模型“不提供任何安全保證。是以,模型可能會根據用詞提示詞生成不準确、有害、存在偏見或者令人反感的輸出。”

OpenELM 隻是蘋果公司釋出的一系列令人驚訝的開源 AI 模型中的最新一批。去年 10 月,蘋果方面曾悄然釋出具有多模态功能的開源語言模型 Ferret,迅速引起各界關注。

目前,大模型領域主要分為開源和閉源兩大陣營。閉源陣營的代表企業包括 OpenAI、Anthropic、谷歌、Midjourney、Udio、百度、科大訊飛、出門問問、月之暗面等。開源陣營的代表企業包括 Meta、微軟、谷歌、百川智能、阿裡巴巴、零一萬物等。這些企業緻力于開放大模型的技術和代碼,鼓勵開發者和研究人員參與模型的開發和改進。

蘋果長期以來一直以神秘莫測、對外“封閉”而聞名,本次卻罕見地加入開源大模型陣營。以前,除了在網上釋出模型和論文之外,蘋果并未公開宣布或者讨論其在 AI 領域的探索。

關于 OpenELM,我們了解什麼?

盡管 OpenELM(全稱為開源高效語言模型)才剛剛釋出、尚未進行過公開測試,但蘋果在 Hugging Face 上指出其目标是在裝置端運作這些模型。這明顯是在緊跟競争對手谷歌、三星和微軟的腳步——微軟本周剛剛釋出了能夠純在智能手機端運作的 Phi-3 Mini 模型。

在 arXiv.org 上發表的一篇模型闡述論文中,蘋果表示 OpenELM 的開發“由 Sachin Mehta 上司,Mohammad Rastegrai 與 Peter Zatloukal 則額外做出貢獻”,該模型家族“旨在增強并賦能開放研究社群,促進未來的研究工作。”

蘋果的 OpenELM 模型分為四種規模,分别擁有 2.7 億、4.5 億、11 億與 30 億參數,各模型均比現有高性能模型更小(通常為 70 億參數)且各自擁有預訓練與指令微調兩個版本。

這些模型的預訓練采用來自 Reddit、維基百科、arXiv.org 等網站總計 1.8 萬億 tokens 的公共資料集。

蘋果釋出 OpenELM:專為在裝置端運作而設計的小型開源 AI 模型

OpenELM 模型适合在商用筆記本電腦甚至部分智能手機上運作。蘋果在論文中指出,他們分别在“配備英特爾 i9-13900KF CPU、64 GB DDR5-4000 DRAM 和 24 GB VRAM 的英偉達 RTX 4090 GPU,運作有 Ubuntu 22.04 的工作站上”、以及“配備 M2 Max 系統晶片與 64 GiB RAM、運作有 macOS 14.4.1 的蘋果 MacBook Pro 上”運作了基準測試。

蘋果釋出 OpenELM:專為在裝置端運作而設計的小型開源 AI 模型
蘋果釋出 OpenELM:專為在裝置端運作而設計的小型開源 AI 模型

網友測試運作 OpenELM 模型

有趣的是,新家族中的所有模型均采用分層縮放政策來配置設定 Transformer 模型中每一層内的參數。

據蘋果公司介紹,這種方式能夠提供更加準确的結果,同時提高計算效率。該公司還使用新的 CoreNet 庫對模型進行了預訓練。

該公司在 Hugging Face 上提到,“我們的預訓練資料集包含 RefinedWeb、去重版 PILE、RedPajama 的一個子集以及 Dolma v1.6 的一個子集,總規模約 1.8 萬億個 tokens。”

值得肯定,但性能并非頂尖

在性能方面,蘋果公布的結果顯示 OpenELM 模型相當出色,特别是其中的 4.5 億參數版本。

蘋果釋出 OpenELM:專為在裝置端運作而設計的小型開源 AI 模型

此外,11 億參數的 OpenELM 版本“比擁有 12 億參數的 OLMo 模型性能提高了 2.36%,且需要的預訓練 tokens 僅為後者的二分之一。”OLMo 是艾倫 AI 研究所(AI2)最近釋出的“真正開源且最先進的大語言模型”。

而在強調測試知識與推理技能的 ARC-C 基準測試中,經過預訓練的 OpenELM-3B 版本的準确率達到 42.24%,同時在 MMLU 與 HellaSwag 上分别得到 26.76%與 73.28%的成績。

一位參與該模型系列測試的使用者指出,蘋果的模型成果似乎“穩定且性能一緻”,就是說其響應結果并不具備靈活的創造力,也不太可能冒險涉及“不适合上班時浏覽”的内容。

競争對手微軟近期推出的 Phi-3 Mini 擁有 38 億參數及 4k 上下文長度,目前在性能層面仍處于領域地位。

根據最新釋出的統計資料,Phi-3 Mini 在 10-shot ARC-C 基準測試中得分為 84.9%,在 5-shot MMLU 上得分為 68.8%,在 5-shot Hellaswag 上得分為 76.7%。

但從長遠來看,OpenELM 肯定還會繼續得到改進。目前開源大模型社群對于蘋果的加入非常興奮,也期待看到這位“閉源”巨頭如何将其成果引入于各類應用場景。

大模型是智能手機的未來

手機廠商們都很看好手機上的 AI 前景。

高通和聯發科等公司已推出了智能手機晶片組,可滿足人工智能應用所需的處理能力。此前,許多裝置上的 AI 應用實際上是在雲端進行部分處理,然後下載下傳到手機上。但雲端模型也存在弊端,如推理成本很高,一些 AI 創業公司訓練+生成一張圖檔的成本可能就要一進制。而先進的晶片和端側模型則會推動更多 AI 應用程式在手機端運作,節省成本的同時,也能給使用者帶來更好的實時計算能力,進而催生出新的商業模式。

從 ChatGPT 火爆至今不過一年左右,手機廠商就都已将 AI 大模型技術落地在自家手機中。

今年三星新釋出的 Galaxy S24 系列上搭載了能處理語音、文本、圖像的端側 Galaxy AI。谷歌也釋出了一款搭載自家 AI 模型的手機 Pixel 8 系列,該裝置搭載了 Gemini Nano。谷歌 Pixel 部門産品管理副總裁 Brian Rakowski 還表示谷歌最先進的大模型也會于明年直接登陸智能手機,“我們在壓縮這些模型方面已經取得了相當多的突破。”

國内頭部手機廠商也争相布局。小米于去年 10 月釋出了澎湃 OS 以及小米自研大模型加持的各類應用;vivo 也去年宣布推出了藍心大模型,并開源了面向手機打造的端雲兩用大模型 BlueLM-7B;OPPO 也在去年 11 月釋出了安第斯大模型(AndesGPT),以“端雲協同”為基礎架構設計思路,推出了多種不同參數規模的模型規格。

今年世界移動通信大會 MWC 的一大亮點也是大模型能夠在裝置本身上本地運作,“這就是最具颠覆性的地方。” CCS Insight 首席分析師 Ben Wood 感歎。在這次大會上,還展示了一些未來 AI 概念手機,比如德國電信和 Brain.ai 完全放棄 App 而采用 AI 界面的 T phone。是以,也有預測認為,随着 AI 占領我們的智能手機,App 時代的終結可能指日可待,進而帶來全新的生态和競争格局。

手機大模型之戰,此前隻差蘋果,而現在,蘋果終于帶着它的開源大模型來了。

原文連結:蘋果釋出OpenELM:專為在裝置端運作而設計的小型開源AI模型_生成式 AI_Tina_InfoQ精選文章

繼續閱讀