天天看點

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

克雷西 發自 凹非寺

量子位 | 公衆号 QbitAI

它來了它來了,蘋果的Apple Intelligence終于與果粉見面了!

随着iOS 18.1 Beta版的上線,注冊開發者從即日起就能體驗到蘋果AI的部分功能。

最明顯的一處就是Siri的全面換新,變身成了Apple Intelligence & Siri。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

另一項重磅更新就是寫作功能了,它可以幫忙潤色推特評論,三下五除二就能把進階表達方式安排起來。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

甚至dirty words也能分分鐘變得儒雅随和:

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

開啟Apple Intelligence後,蘋果自研的端側大模型就會被下載下傳到裝置當中。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

根據手快的網友體驗回報,不像其他家的AI那樣動不動就是拒絕服務。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

與此同時,蘋果自家大模型的報告也已出爐,披露了大量技術細節。

報告顯示,在指令遵循、文本總結等任務上,蘋果雲端大模型取得了超過GPT-4的成績。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

蘋果基礎大模型團隊負責人龐若鳴(Ruoming Pang)也表示,其模型與一些同類最佳模型相比具有競争力。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

龐若鳴是普林斯頓計算機博士,本碩分别畢業于上海交大和南加州大學,于2021年加入蘋果,此前在谷歌擔任了15年的工程師。

Apple Intelligence的主要對話功能,正是由他率領的團隊研發的模型提供支援。

這次他還強調,這些基礎模型“并不是聊天機器人”,而是支援廣泛的功能,包括摘要、寫作幫助、工具使用和代碼。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

另外,蘋果也研發了許多自研算法,為提高模型表現提供了加持,具體資訊也在報告中被披露。

還有細心的網友從中發現了華點——

蘋果大模型的訓練用的是谷歌TPU叢集,英偉達含量竟然為零。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

Siri更新,但ChatGPT暫未接入

要想體驗到蘋果的Apple Intelligence,需要滿足的條件有不少。

首先,搭載它的iOS 18.1 Beta版目前是99美金一年的注冊開發者限定,是以普通使用者還得等等。

還有就是之前說過的,隻支援M系和A17 Pro晶片,也就是說iPhone中隻有部分地區的15 Pro和15 Pro Max能用。

除了硬體和身份要求,系統設定也需要修改,要将地區設定為美國,且裝置和Siri的語言都要改成英語。

滿足了所有這些要求之後,就可以……加入等待隊列了。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

此次上線的Apple Intelligence是部分功能,主要圍繞文本生成、Siri和相冊這幾個子產品。

先說文本生成,作為蘋果AI的重要組成部分,該功能的視适用範圍不局限于蘋果官方應用。

隻要使用标準輸入文本系統,在第三方應用程式當中也能利用該功能進行文本總結、校對和重寫。

另外結合iOS 18 Beta的語音備忘錄中已經上線的音頻轉錄功能,文本生成系統還可以為錄音生成摘要。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

第二個比較重要的更新就是Siri了。

界面上,新版Siri不再是一個圓形圖示,在運作時會有環繞螢幕的彩色光不斷閃動。

而且還給不想語音對話的使用者提供了文本對話方式,輕按兩下螢幕底部即可調出鍵盤,與Siri打字交流。

内容方面,新版Siri将能夠解答與蘋果産品相關的問題,幫助使用者進行故障排除。

另外,新的Siri還可以夠了解從一個查詢到下一個查詢的上下文,例如要求Siri建立月曆事件,然後請求建立提醒,而無需重述正在談論的内容。

不過,之前介紹的螢幕感覺功能,并未包含在此次Siri 的更新當中。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

相冊的更新則讓使用者可以用自然語言搜尋特定照片,甚至是視訊當中的具體時刻。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

以上就是本次開發者測試版本中有關AI的大緻内容,需要指出的是,這隻是之前釋出會上所展示的功能中的一部分,還有很多沒有上線。

特别地,之前提到過的ChatGPT內建,此次更新也暫未接入。

解密蘋果大模型

蘋果已經說過,ChatGPT在蘋果AI中不是必選項,主要功能是由自家的大模型驅動。

而關于這個模型,蘋果也在上線的同時釋出了全面的技術報告。

模型的名字簡單粗暴,就叫蘋果基礎模型(Apple Foundation Model,簡稱AFM),有端側(on-device)和雲側(server)兩個版本。

端側模型的參數量在3B左右,雲側則未具體透露,隻說是比端側更大,二者都有32k的上下文視窗。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

★訓練過程英偉達含量為0

模型的訓練通過自家基于JAX的AXLearn架構進行,并采用了張量并行、流水并行等政策。

硬體則采用的是谷歌TPU,其中雲側用了8192顆TPUv4晶片,端側用了2048顆TPUv5p晶片,總之英偉達含量為0。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

資料則主要來源于通過Applebot爬取的網頁,以及有公共許可的代碼和數學資料集。

值得一提的是,蘋果選用的資料集中無一使用GPL,都是MIT、Apache、CC0這些開放程度更高的開源協定。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

流程上,AFM的預訓練過程共分三個階段——核心訓練、繼續訓練和上下文延長。

在核心訓練階段中,雲側版本的資料量有6.3T tokens,視窗長度為4096,端側版本則是在此基礎之上蒸餾得到。

繼續訓練時,低品質資料的權重會被降低,并使用數學、代碼以及獲得授權的高品質資料,對模型能力進行提升。

該過程使用了1T tokens的資料,視窗長度也從4096變成了8192。

到了下一階段,視窗長度被進一步擴充到32k,涉及長序列文本和合成資料,總量為100B tokens。

★獨創強化學習新算法

AFM的後訓練則包括指導監督微調(SFT)、人類回報強化學習(RLHF)等工作。

其中SFT階段使用了合成資料與人類标注資料,合成資料主要關于數學、工具使用和代碼。

而在RLHF階段,蘋果自創了iTeC和MDLOO兩種強化學習算法。

iTeC全稱Iterative Teaching Committee,可譯作“疊代教學委員會”,是一種用于強化學習後訓練的算法,旨在通過多輪疊代優化模型的性能。

其核心思想是結合不同的偏好優化算法,包括拒絕采樣、直接偏好優化(DPO),使得模型能夠從多種優化政策中受益,進而提高其對特定任務的适應性和性能。

在每次疊代中,iTeC會從最新的模型中選擇一組表現最好的模型,形成一個“模型委員會”。這些模型是經過SFT、RS、DPO/IPO和RL等不同訓練方法得到的。

通過收集人類對模型響應的偏好回報,iTeC不斷更新其獎勵模型,并用于訓練新的模型集合。

每收集一批人類偏好資料後,iTeC會重新整理其獎勵模型,并訓練新的模型集合,以此循環進行多輪疊代,逐漸提升模型性能。

MDLOO則是一種線上強化學習算法,特别設計用于優化模型的響應品質。

作為線上算法,它能在模型訓練過程中實時解碼響應,并應用RL算法來最大化獎勵。

也就是說,這種方法使得模型能夠在訓練過程中不斷學習和調整其政策,以生成更符合人類偏好的響應。

具體實作上,它結合了留一法(Leave-One-Out,LOO)優勢估計器和鏡像下降政策優化(MDPO),以實作更穩定和有效的政策更新。

★端側混合精度量化

為了讓端側模型更高效運作,同時避免占用過多記憶體資源,蘋果對AFM的端側版本進行了量化操作。

具體來說,蘋果采用了混合精度的量化方式,針對不同環節采用了不同的量化精度。

蘋果采用的方式被稱為“調色闆”政策,在調色闆量化中,權重不是每個單獨量化,而是将它們分組,并讓組内的權重共享相同的量化常數。

對于投影權重,每16列/行共享相同的量化常數,并且使用K-means算法進行4位量化。

針對嵌入層,由于是輸入和輸出共享的,采用了8位整數進行每通道量化,另外還有某些重要性相對較低的層被進一步壓縮到2位量化。

為了恢複量化後損失的性能,以保持模型的輸出品質和準确性,蘋果還引入了準确性恢複擴充卡(Accuracy-Recovery Adapters)。

該擴充卡是小型的神經網絡子產品,可以插入到預訓練模型的特定層中,在量化模型的基礎上進行訓練,通過微調來學習如何補償量化帶來的影響。

★部分任務超越GPT-4

應用了一系列優化技術之後,也到了驗收模型表現的時候了。

在這過程中,蘋果采用了人類評估與自動化評估相結合的政策。

先說人工評估,評估人員設計了涵蓋分析推理、頭腦風暴、聊天機器人等方面的多類問題,并讓模型生成相應。

同時,問題也會被提給用于對比的其他模型,然後由評估人員評判哪個模型的輸出更好。

結果,無論是雲側還是端側模型,都有至少60%的機率不輸給Llama 3、GPT-4等對比模型。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

其餘的測試主要利用資料集實作。

在指令遵循能力上,蘋果進行了IFEval測試,結果在指令和prompt兩個層次上,雲側AFM都超過了GPT-4,成為了新的SOTA。

端側模型的表現,也超過了Llama 3-8B、Mistral-7B等近似規模的模型。

在AlpacaEval當中,端側和雲側AFM也都取得了第二名的成績。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

再看具體任務上的表現,AFM在寫作類Benchmark當中的總結任務上取得了SOTA,撰寫任務上也與第一名接近。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

數學上,蘋果用GSM8K和MATH兩個資料集進行了評估。

結果端側模型在GSM8K上不敵Llama 3-8B和微軟的Phi 3 mini,雲側被GPT-4和Llama 3-70B超越,但優于GPT-3.5。

MATH上的成績相對高些,端側版領先了同規模模型,雲側版也超越了Llama 3-70B。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

性能之外,安全性也十分重要,蘋果通過人工方式對AFM抵禦對抗性攻擊的能力進行了評估。

結果顯示,AFM在面對對抗性提示時,實作的違反率顯著低于其他開源和商業模型。

蘋果AI版iOS首日火爆:聊天秒變高情商,大模型成最強嘴替

以上就是蘋果大模型技術報告中一些值得關注的内容,更多詳情可參閱報告原文。

One More Thing

雖然Apple Intelligence已經提供給開發者進行測試,但彭博社爆料說,正式版可能會延遲上線。

的确,按照蘋果此前的版本釋出規律,18.1的版本号也意味着,這些功能不會随着9月的新機釋出一同上線。

對此分析師Gene Munster建議,蘋果應該考慮推遲iPhone 16的釋出日期,以與Apple Intelligence保持一緻。

至于庫克會不會考慮這個建議,就拭目以待了。

報告位址:

https://machinelearning.apple.com/research/apple-intelligence-foundation-language-models

參考連結:

[1]https://x.com/reach_vb/status/1818014366555586611

[2]https://www.cnbc.com/2024/07/29/apple-releases-apple-intelligence-its-long-awaited-ai-features.html

[3]https://www.tomsguide.com/phones/iphones/ios-181-developer-beta-is-live-with-apple-intelligence-heres-all-the-new-iphone-ai-features

[4]https://www.businessinsider.com/apple-intelligence-delay-wont-hurt-new-iphone-sales-analysts-2024-7

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀