天天看點

蘋果推出M4晶片,平平無奇?

作者:電子技術應用ChinaAET
蘋果推出M4晶片,平平無奇?

Apple 今天釋出了 M4,這是一款為全新iPad Pro提供非凡性能的最新晶片。M4 采用第二代 3 納米技術建構,是一款片上系統 (SoC),它提高了 Apple 晶片行業領先的能效,并實作了 iPad Pro 令人難以置信的輕薄設計。它還配備了全新的顯示引擎,可驅動 iPad Pro 上突破性的 Ultra Retina XDR 顯示屏實作令人驚歎的精度、色彩和亮度。

新晶片的CPU擁有多達10個核心,而新的10核GPU則建立在M3引入的下一代GPU架構之上,并首次為iPad帶來動态緩存、硬體加速光線追蹤和硬體加速網格着色功能時間。M4 擁有 Apple 有史以來最快的神經引擎,每秒能夠執行高達 38 萬億次操作,這比當今任何 AI PC 的神經處理單元都快。結合更快的記憶體帶寬、CPU 中的下一代機器學習 (ML) 加速器以及高性能 GPU,M4 使新款 iPad Pro 成為一款極其強大的人工智能裝置。

蘋果硬體技術進階副總裁 Johny Srouji 表示:“搭載 M4 的新款 iPad Pro 是一個很好的例子,展示了如何建構一流的定制晶片來實作突破性産品。” “M4 的高能效性能及其全新顯示引擎,使 iPad Pro 的輕薄設計和改變遊戲規則的顯示成為可能,而 CPU、GPU、神經引擎和記憶體系統的根本改進使 M4 非常适合了解利用人工智能的最新應用程式。總而言之,這款新晶片使 iPad Pro 成為同類裝置中功能最強大的裝置。”

蘋果推出M4晶片,平平無奇?

台積電第二代3nm工藝

M4 由 280 億個半導體組成,采用第二代 3 納米技術建構,進一步提高了 Apple 晶片的功效。M4 還采用采用開創性技術設計的全新顯示引擎,實作 Ultra Retina XDR 顯示屏令人驚歎的精度、色彩準确度和亮度均勻性,這是一種通過結合兩個 OLED 面闆的光線建立的最先進的顯示屏。

從這個描述我們可以高度确定。蘋果對“第二代 3nm 工藝”的描述與台積電的第二代 3nm 工藝 N3E完全吻合。他們的 3nm 工藝節點的增強版與 M3 系列晶片使用的 N3B 工藝相比有點遜色;N3E 的密度不如 N3B,但根據台積電的說法,它提供了稍微更好的性能和功耗特性。差異非常接近,以至于架構發揮着更大的作用,但在能源效率的競賽中,蘋果将占據他們能獲得的任何優勢。

蘋果推出M4晶片,平平無奇?

多年來,蘋果作為台積電新工藝節點釋出合作夥伴的地位已經确立,而且蘋果似乎是第一家推出 N3E 工藝晶片的公司。然而,它們不會是最後一個,因為幾乎所有台積電的高性能客戶預計都将在明年采用 N3E。是以,像往常一樣,蘋果在晶片制造方面的直接優勢隻是暫時的。

蘋果公司早期的上司者地位也可能解釋了為什麼我們現在看到的是 iPad 上的 M4(蘋果公司的一款銷量相對較低的裝置)而不是 MacBook 系列。到了某個時候,台積電的N3E産能将會迎頭趕上,然後再追上一些。我不會冒險猜測蘋果公司當時對該系列産品的計劃,因為我真的看不到蘋果公司這麼快就停止生産 M3 晶片,但這也讓他們陷入了一個尴尬的境地,不得不在M4存在。

尚未公布新晶片的晶片尺寸(或釋出的晶片照片),但半導體總數為 280 億個,僅比 M3 的半導體數量稍多,這表明蘋果并沒有投入過多的新硬體。

M4 CPU 架構:四個性能核,六個效率核心

從 CPU 方面開始,我們面臨着蘋果 M4 CPU 核心設計的一個謎。蘋果公司守口如瓶,而且缺乏與 M3 的性能比較,這意味着我們沒有獲得太多有關 CPU 設計比較的資訊。是以,M4 是否代表了蘋果 CPU 設計的分水嶺——新的 Monsoon/A11——還是類似于 A17 中的 Everest CPU 核心的小更新,還有待觀察。當然,我們希望後者,但如果沒有更多細節,我們将根據我們所知道的情況進行工作。

Apple 關于 SoC 的簡短主題演講指出,性能和效率核心都實作了改進的分支預測,對于性能核心,還實作了更廣泛的解碼和執行引擎。然而,這些與蘋果為 M3 所做的廣泛聲明相同,是以這本身并不代表新的 CPU 架構。

據蘋果介紹,M4 擁有全新的多達 10 核的 CPU,其中最多包含四個性能核心,現在包含六個效率核心。下一代核心具有改進的分支預測功能,為性能核心提供更廣泛的解碼和執行引擎,為效率核心提供更深層次的執行引擎。這兩種類型的核心還具有增強的下一代機器學習加速器。

蘋果推出M4晶片,平平無奇?

與前代 iPad Pro 中強大的 M2 相比,M4 的 CPU 性能提高了 1.5 倍。1無論是在 Logic Pro 中處理複雜的管弦樂檔案,還是在 LumaFusion 中向 4K 視訊添加高要求的效果,M4 都能提高整個專業工作流程的性能。

然而,Apple M4 CPU 聲稱的獨特之處在于這兩種 CPU 核心類型都是“下一代機器學習加速器”。這與蘋果更廣泛地關注 M4 中的 ML/AI 性能密切相關,盡管該公司并未詳細說明這些加速器的具體用途。由于 NPU 負責完成所有繁重工作,CPU 核心上 AI 增強的目的不再是總吞吐量/性能,而是更多地處理混合在更通用工作負載中的輕型推理工作負載,而無需花費時間和資源來處理專用NPU。

一個有根據的猜測是,蘋果已經更新了他們記錄很少的 AMX 矩陣單元,這些單元從一開始就是 M 系列 SoC 的一部分。然而,最近的 AMX 版本已經支援常見的 ML 數字格式,如 FP16、BF16 和 INT8,是以,如果 Apple 在此進行更改,那麼這并不是添加(更多)常見格式之類的簡單明了的事情。同時,如果是 AMX,看到蘋果提及它會有點令人驚訝,因為他們對這些裝置非常保密。

另一個合理的選擇是,Apple 對其 CPU 内的 SIMD 單元進行了一些更改,以添加常見的 ML 數字格式,因為開發人員可以更直接地通路這些單元。但與此同時,Apple 一直在推動開發人員從一開始就使用更進階别的架構(這就是通路 AMX 的方式),是以這實際上可能會發生任何一種情況。

無論如何,無論支撐 M4 的 CPU 核心是什麼,有一點是确定的:它們的數量更多。完整的 M4 配置包括 4 個性能核心和 6 個效率核心,比 M3 多 2 個效率核心。精簡版 iPad 型号獲得 3P+6E 配置,而更進階别的配置則獲得完整的 4P+6E 體驗,是以對性能的影響可能是顯而易見的。

在其他條件相同的情況下,與 M3 的 4P+4E 配置相比,添加兩個效率核心不會大幅提高 CPU 性能。但蘋果的效率核心也不應該被低估,因為即使蘋果的效率核心由于使用了亂序執行而也相對強大。特别是當固定工作負載可以保留在效率核心上而不是提升到性能核心上時,能源效率提升的空間很大。

除此之外,Apple 尚未釋出新 SoC/CPU 核心的任何詳細性能圖表,是以幾乎沒有什麼硬資料可讨論。但該公司聲稱 M4 的 CPU 性能比 M2 快 50%。這大概是針對可以利用 M4 的 CPU 核心數量優勢的多線程工作負載。另外,蘋果在主題演講中還聲稱他們可以以一半的功耗提供 M2 性能,結合工藝節點改進、架構改進和 CPU 核心數量增加,這似乎是一個合理的主張。

然而,與往常一樣,我們必須看看獨立基準的結果如何。

M4 GPU 架構:光線追蹤和動态緩存

M4 的全新 10 核 GPU 建立在 M3 系列晶片的下一代圖形架構之上。它具有動态緩存功能,這是 Apple 的一項創新,可以在硬體中實時動态配置設定本地記憶體,進而顯着提高 GPU 的平均使用率。這顯着提高了最苛刻的專業應用程式和遊戲的性能。

與 M4 上的 CPU 情況相比,GPU 情況要簡單得多。最近剛剛在 M3 中引入了新的 GPU 架構(Apple 不像 CPU 那樣頻繁疊代這種核心類型),Apple 幾乎已經确認 M4 中的 GPU 與 M3 中的架構相同。

蘋果推出M4晶片,平平無奇?

擁有 10 個 GPU 核心,進階配置與 M3 上的配置相同。這是否意味着各種塊和緩存與 M3 真正相同還有待觀察,但蘋果并沒有對 M4 的 GPU 性能做出任何聲明,無論以何種方式都可以解釋為它優于 M3 的 GPU。事實上,iPad 較小的外形尺寸和更有限的冷卻能力意味着 GPU 在任何持續的工作負載下都會受到熱量限制,特别是與 M3 在 14-14 等主動冷卻裝置中的表現相比。英寸 MacBook Pro。

無論如何,這意味着 M4 配備了 M3 GPU 引入的所有主要新架構功能:光線追蹤、網格着色和動态緩存。蘋果也強調,硬體加速光線追蹤也首次登陸 iPad,在遊戲和其他圖形豐富的體驗中實作更真實的陰影和反射。硬體加速網格着色也内置于 GPU 中,可提供更強大的幾何處理能力和效率,進而在遊戲和圖形密集型應用程式中實作視覺上更加複雜的場景。M4 使 Octane 等應用程式中的專業渲染性能得到了巨大提升,現在比 M2 快四倍。

這裡,我們不強調光纖追蹤,但網格着色是一種重要的下一代幾何處理方法。與此同時,動态緩存是 Apple 對其在 M 系列晶片上改進的記憶體配置設定技術的術語,該技術可以避免從 Apple 統一的記憶體池中向 GPU 過度配置設定記憶體。

通過對 CPU 和 GPU 的這些改進,M4 保持了 Apple 晶片業界領先的每瓦性能。M4 隻需一半的功耗即可提供與 M2 相同的性能。與輕薄筆記本電腦中最新的 PC 晶片相比,M4 隻需四分之一的功耗即可提供相同的性能。

除了 GPU 渲染之外,M4 還獲得了 M3 更新的媒體引擎塊,該塊來自 M2,對于 iPad 使用來說是一個相對重要的事情。最值得注意的是,M3/M4 的媒體引擎子產品增加了對 AV1 視訊解碼(下一代開放視訊編解碼器)的支援。雖然 Apple 非常樂意為 HEVC/H.265 支付版稅以確定其在其生态系統中可用,但免版稅的 AV1 編解碼器預計将在未來幾年中發揮重要作用和使用,而 iPad Pro可以更好地使用最新的編解碼器(或者至少不必在軟體中低效地解碼 AV1)。

然而,M4 在顯示方面的創新之處在于新的顯示引擎。該子產品負責合成圖像并驅動裝置上連接配接的顯示器,Apple 從未給予該子產品特别多的關注,但當他們對其進行更新時,它通常會立即帶來一些功能改進。

蘋果推出M4晶片,平平無奇?

這裡的關鍵變化似乎是啟用蘋果新的夾層“串聯”OLED 面闆配置,該配置在 iPad Pro 中首次亮相。iPad 的 Ultra Retina XDR 顯示屏将兩塊 OLED 面闆直接疊置在一起,以便顯示屏能夠累計達到蘋果 1600 尼特的亮度目标,而單塊 OLED 面闆顯然無法做到這一點。這反過來又需要一個知道如何操縱面闆的顯示控制器,不僅要驅動一組鏡像顯示器,還要考慮由于一個面闆位于另一個面闆之下而導緻的性能損失。

雖然與 iPad Pro 沒有直接關系,但看看蘋果是否利用這個機會增加 M4 可以驅動的顯示器總數将會很有趣,因為普通的 M 系列 SoC 通常僅限于 2 個顯示器,這對于MacBook 使用者的驚愕。事實上,M4 可以驅動串聯 OLED 面闆和外部 6K 顯示器,這一點是有希望的,但當 M4 登陸 Mac 時,我們将看到這如何轉化為 Mac 生态系統。

M4 NPU 架構:新的東西,更快的東西

可以說,蘋果 M4 SoC 的最大焦點是該公司的 NPU,也稱為神經引擎。自 M1 以來,該公司一直在推出 16 核設計(在此之前的 A 系列晶片上也采用了較小的設計),每一代都提供了适度的性能提升。但蘋果表示,随着 M4 一代的出現,他們的性能有了更大的飛躍。

蘋果推出M4晶片,平平無奇?

M4 NPU 仍采用 16 核設計,額定速度為 38 TOPS,僅是 M3 中 18 TOPS 神經引擎的兩倍多。巧合的是,僅比 A17 中的神經引擎高幾個 TOPS。是以,作為基準聲明,蘋果宣稱 M4 NPU 比 M3 中的 NPU 強大得多,更不用說為以前的 iPad 提供動力的 M2,甚至更早,比 A11 的 NPU 快 60 倍。

不幸的是,問題(再一次)出現在細節中,因為 Apple 沒有列出所有重要的精度資訊 - 無論該數字是基于 INT16、INT8 還是 INT4 精度。作為目前 ML 推理的法律精度,INT8 是最有可能的選擇,特别是因為這是蘋果去年 A17 的報價。但自由地混合精度,甚至隻是不披露它們,至少可以說是令人頭痛的。這使得同類規格的比較變得困難。

無論如何,即使大部分性能改進來自 INT8 支援而不是 INT16/FP16 支援,M4 NPU 也有望為 AI 性能帶來顯著的性能改進,類似于 A17 已經發生的情況。由于蘋果是第一批推出帶有我們現在所稱的 NPU 的消費級 SoC 的晶片供應商之一,是以該公司并不害怕在這個問題上大肆宣揚,尤其是與市場上正在發生的事情進行比較。電腦領域。特别是由于蘋果提供的是一個完整的硬體/軟體生态系統,該公司的優勢在于能夠使用自己的 NPU 來塑造他們的軟體,而不是等待為其發明殺手級應用程式。

按照蘋果的描述,M4 擁有速度極快的神經引擎,這是晶片中專門用于加速 AI 工作負載的 IP 子產品。這是 Apple 有史以來最強大的神經引擎,每秒能夠執行驚人的 38 萬億次操作,比 A11 Bionic 中的第一個神經引擎快了驚人的 60 倍。神經引擎與 CPU 中的下一代機器學習加速器、高性能 GPU 和更高帶寬的統一記憶體一起,使 M4 成為一款極其強大的 AI 晶片。借助 iPadOS 中的 AI 功能(例如用于實時音頻字幕的 Live Captions 以及識别視訊和照片中的對象的 Visual Look Up),新款 iPad Pro 允許使用者在裝置上快速完成令人驚歎的 AI 任務。

配備 M4 的 iPad Pro 隻需輕按一下即可輕松将 Final Cut Pro 中的 4K 視訊中的主題與其背景分離,并且隻需聆聽某人彈鋼琴即可在 StaffPad 中自動實時建立樂譜。推理工作負載可以高效、私密地完成,同時最大限度地減少對應用記憶體、應用響應能力和電池壽命的影響。M4 中的神經引擎是 Apple 迄今為止功能最強大的神經引擎,比當今任何 AI PC 中的任何神經處理單元都更強大。

M4記憶體:采用更快的LPDDR5X

最後但同樣重要的一點是,M4 SoC 的記憶體功能也得到了顯着改進。鑒于蘋果為 M4 報價的記憶體帶寬資料(120GB/秒),所有迹象都表明他們最終在其新 SoC 中采用了 LPDDR5X。

LPDDR5X 是 LPDDR5 标準的中期更新,可提供比 LPDDR5 更高的記憶體時脈速度,最高可達 6400 MT/秒。雖然 LPDDR5X 目前的速度高達 8533 MT/秒(并且還會有更快的速度),但根據 Apple M4 的 120GB/秒的資料,這使得記憶體時脈速度約為 LPDDR5X-7700。

由于 M4 将首先應用于 iPad,目前我們還不清楚它的最大記憶體容量。M3 可以容納高達 24GB 的記憶體,雖然蘋果在這方面不太可能退步,但也沒有迹象表明他們是否能夠将記憶體增加到 32GB。與此同時,iPad Pro 都将配備 8GB 或 16GB RAM,具體取決于具體型号。

原文連結

https://www.anandtech.com/show/21387/apple-announces-m4-soc-latest-and-greatest-starts-on-ipad-pro

來 源 | 半導體行業觀察(ID:icbank) 編譯自蘋果

蘋果推出M4晶片,平平無奇?

☞商務合作:☏ 請緻電 010-82306118 / ✐ 或緻件 [email protected]

蘋果推出M4晶片,平平無奇?

繼續閱讀