天天看點

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

作者:新潮電子

在寫完Meteor Lake解讀後,相信我和小夥伴們都感到意尤未盡,的确,要完全講清PC史上架構最複雜的“四合一”架構,還需要更深一些的角度。記得小時候有一部卡通片,講的是四個不同形态機器人組合為一個更大的機器人,戰力的強大與否,在于合理的搭配。

Meteor Lake同樣如此,雖然已經劃分出GPU Tile、SoC Tile、IO Tile和Compute Tile四大功能子產品,但依然還需要将各個IP安放在最适合他們的位置之上,并且符合這一代處理器高性能能耗比的設計特點和流暢無礙的溝通交流,其實,這才是Meteor Lake真正的核心競争力。是以,接下來,讓我們看看以各個功能子產品為機關,英特爾具體怎麼來搭積木的。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

01Intel 4制程工藝決定Compute Lite性能表現

各個Tile的詳細解讀,我們先從決定Compute Tile性能表現的Intel 4制造技術談起。過去,我們對英特爾這個發展過程中極為關鍵的制造技術節點進行過多種探讨。而這次的英特爾ON技術創新峰會上,英特爾對其性能做了一些定性的資訊,雖然并非最終的定量資料要等到Ultra Core處理器正式釋出之時,但已經非常令人興奮。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

描述Intel 4制造技術的性能提升采用了高性能邏輯庫面積這個名額,比起Intel 7工藝在(內建度)上有2倍的縮減,也在性能功耗比上減少了20%以上,另外制造裝置(EUV)的更新,帶來的直覺感受便是DIE變小了,在應用新的8VTs後,更好的協調了頻率和電壓的關系,進而提更高效的底層供電。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

剛才我提及英特爾制造技術在等效其他廠商的制程工藝時有一個等效的概念,其中重要的名額便是半導體密度。在我的記憶中,英特爾從 Cannon Lake開始,就擁有比其他家更高的半導體密度。然而各個半導體制造商采用的單元庫不同,那怕同一代工藝也很難用半導體密度來直接相比,也不能完全展現廠商的工藝水準,比方說在DIE上的半導體并不是平均分布的,是以在半導體制造上半導體密度更多是作為參考量來使用。

如果在同一廠商的産品體系中,提升的單元庫高度帶來的半導體密度提升的确就意味着DIE上性能的提升。将Intel 4與Intel 7相比,這次英特爾公布的是将高性能庫由240庫高度更新為408,由此帶來有DIE面積縮減了0.59X(DIE面積縮減也意味着半導體密度的提升)。當然,對于FinFET來說,增加 Fin(鳍)高度或減少Fin間距就能有效增加驅動電流,而接觸式栅極間距和MO間距減少也意味着DIE面積的減少,事實上,DIE面積縮減一半是按庫高度提升帶來0.59X減少乘以栅極間距帶來的0.83X減少換算而來的。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

制程工藝的進步是與半導體的制造裝置光刻機的同步的,剛才我已經提及了EUV光刻機在英特爾PC處理器上的首次使用,它會給整個Intel 4的制造過程帶來更加精細的工藝成果和流程上的增效。另外,據英特爾稱,全球首款NA EUV(0.55高數值孔徑)也将落戶英特爾,這就意味着EUV僅僅會在英特爾PC處理器進步過程中停留兩個節點,又要改道到全新的生産線上,這正是英特爾四年五個制程的真正難度。

聊回Intel 4制造技術,正是因為引入了EUV光刻機,其四重的曝光工藝優化了連接配接層上的18層的金屬堆棧,其中包含13個銅互聯層和5個增強型銅層。可以看到,最密集的增強型銅層實作了30納米金屬層間距,讓層數和密度均得到很大的提升。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

另外,就要談到英特爾在連接配接層的接觸材料上的一些變化。在制造技術的發展過程中,英特爾一直在優化工藝中的接觸材料來提升電子遷移率,簡單來說就是降低電阻,Intel 7之前的處理器連接配接層一直采用鎢材料,Intel 7采用了兩種不同的特殊金屬層(帶钴線的钽隔離層和帶銅合金的氮化坦)來實作更小的電阻和更長的壽命,但這兩種材料在壽命和電子遷移率上一直難以取得平衡,是以Intel 4上進一步推進新的材料的應用,是以密度增強型銅層上使用了钽/钴與純銅金屬合金工藝,同時使用了長壽命和高電子遷移率。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

EUV最大的貢獻就是改善了制造技術,可以在更簡化的工藝流程上實作更精準的半導體加工,這也是提升半導體密度的基礎。英特爾這次通過EUV光刻技術,用單個EUV層一次處理替代了以往光刻和研磨分層處理的環節讓掩模總數和工藝步驟總數都有了不少的提升。還值得一提的是,使用更加精細的EUV之後,晶片内部的連接配接結構更加标準,摒棄了以往的非标結構,這樣會使APR變得非常簡單和高效。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

正是以上的改進,讓Intel 4的良率一開始便保持了非常高的狀态,不像以往在14nm和10nm制程工藝上需要通過第二代産品優化才能達到一個較好的良率。在Intel 4上積累的這些經濟,同樣也會為未來的Intel 20A和Intel 18A打下非常好的基礎。

02建構全新的SOC Lite,是高能效比的一次飛躍

雖然SOC Lite是Meteor Lake首次出現的功能子產品,但我們其實不必對它感到神秘。其實在SOC Lite出現之前,英特爾是将Wi-Fi子產品、顯示輸出單元以及記憶體控制器這些非計算密集型IP歸入Uncore範疇(與計算密集型核心Core相對應)。之是以要設立一個SOC Lite,主要還是為了更好地實作較高的能效比,是以這個功能子產品的駕構從開始設計起就是有明确目标的。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

在Meteor Lake的上篇我們提到,SOC本身就可以看作一個小CPU,其實還不完全準确。之是以命名為SOC,還是從System On Chiplet來取的,但是呢,它跟獨立的SoC不一樣,它其中更多的是各種功能性IP,打包在一起的目的是為了提升整個CPU能效比服務的。我将它其中的IP分為三類:全新加入的,比如NPU和LP E-Core;以往Uncore範疇的各個功能IP;從其他功能子產品中遷移出來的。是以SOC Lite的IP構成就相當複雜了,目前來看就有NPU、LP E-Core、記憶體控制器、系統代理、無線控制器、IO緩存子產品、電源管理子產品、圖像處理子產品、顯示輸出子產品……大家都都知道,一個從人的會議上,你想單獨找一個人是需要合理的溝通交流(通信)方式,而不是直接上去就搶麥克風(環形總線),進而影響到所有人。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

為了深入了解SOC Lite,我們首先要給大家聊聊其四大設計原則:

1. 對計算的密集型IP進行了重新劃分,以實作其功率的優化,在不影響性能的情況下,大幅提高升能效比。

2. 對I/O進行了擴充,為SOC Lite内部主要的IP擴充足夠的帶寬,是以能夠比對更大的系統記憶體。

3. 在SOC的核心當中,引入了一個非常低能耗的核心。

4. 重組了電源管理的一些算法。

用一句話來說就是:主要是重新規劃和引入新IP,重新建構總線和IO通道,讓硬體資源排程獨立化,讓Uncore子產品歸一化。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

接下來,讓我們一起來看這些設計原則在SOC Lite上帶來了哪些變化,是如何實作提升能耗比的最終目标的。先來看上一代混合構架的晶片,Graphics Complex(圖形核心)是附屬于Core Complex(性能核和能效核的統稱)的,兩者共享一條Ring Fabric(環形總線),其中,媒體編解碼器是位于圖形核心之中的。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀
更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

是以,不論是調用性能核、能效核,還是圖形核心、媒體編解碼器想要通路記憶體,必須要通過總線、系統代理(System Agent)、記憶體控制器這條道線,通路效率很高,但正所謂牽一發而動全身,即使我僅想調用媒體編解碼器來看視訊,也需要激活所有的邏輯單元,而且環形總線也是整個打開,這其實就是剛才說的“想在會議上搶麥克風來單人溝通”的,麥克風的确讓想溝通那個人聽得很清楚,但同時也影響了其他人的注意力。從能耗比的角度來看,這是一種非常不經濟做法。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀
更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

OK,你說把媒體編解碼器從圖形核心中拿出來不就得了。事實上英特爾也是這麼做的,另外還将系統代理、記憶體控制器均從環形總線上拿下來,均放在了全新的SOC總線,OK,大家都成一家人了,需要誰直接在SOC總線上呼叫不就行了,是以媒體編解碼器、GPU Tile直接就可以通路内容控制器、Compute Tile也實作了資源獨立調用,其他不用的功能子產品完全可以不通電激活。

通過一個多小時的講解,大家已經熟悉了,最上面我們的圖形Tile,也就是我們的XLPG Graphics就在我們的圖形Tile上。同時我們的多媒體引擎移到了SOC Tile,我們的顯示引擎也移到了SOC Tile。在IO Tile上有一個Display PHYs負責顯示信号的輸出。我們更新過Meteor Lake引擎,最高支援8K 60 10bit HDR的解碼和8K 30 10bitHDR的編碼。我們支援各種先進格式和傳統格式的支援,包括VP9、AVC、HEVC、AV1以及其他的傳統格式。針對不同的任務、不同的使用者的使用場景是不一樣的。不管你是做視訊播放還是串流,做基礎的視訊編輯還是做進階的視訊編輯,你做遊戲、生産力、AI都可以得到英特爾Media Engine非常好的支援。

接下來講一下英特爾的Display Engine。我們做了幾件關鍵的事情,首先我們對顯示和顯示功耗做了進一步優化。二是Display我們可以做全路徑上的壓縮。當你遇到Display輸出和Display解決方案不比對的,使用這種壓縮可以很好的提供顯示的輸出,但是功耗又控制的非常好。包括低功耗的一些模式,可以同時降低對于CPU記憶體Graphics的需求,降低功耗。

就制式而言,我們支援HDMI 2.1、DP 2.1以及完整的eDP 1.4的輸出規範,分辨率最高支援到一個8K60 HDR,或者是支援4個4K60 HDR,或者是更高重新整理率的1080p或者1440p。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

接下來就該談及I/O和帶寬的問題了,12、13代酷睿一直沿用相同的環形總線,以往解決帶寬瓶頸、減小延遲的方式是為一些常用IP建立高優先級。但在Meteor Lake上,将Uncore的IP內建在全新的SOC Tile之中,尤其是新增的IP對帶寬的需求非常高,再延用原來的帶寬解決方式,總會造成擁塞。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

解決總線帶寬不夠的問題,加上環形總線的通信方式并不經濟,最直接的方式就是——再造一個帶寬更大的新總線,英特爾将其命名為NOC總線,其帶寬達到128GB/s;另外,它可以提高各個IP對記憶體存取時的能效(power efficiency),就是對SOC内部IP對帶寬的要求來進行實時的比對,進而解決了IP和IP之間、IP跟總線之間的擁塞;第三,它可以讓接入總線的IP實作獨立通信,是以,英特爾的工程師也稱其為“可擴充總線”(Scalable fabric),就我看來,這非常類似于分布式通信方式,或可稱為“分布式可擴充總線”,當然,這并非NOC總線正式的官方中文命名。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

另外,為解決I/O之間的一些通訊瓶頸,這次英特爾還在SOC Tile中增加了一個總線——IO Fabric,雙總線間增加了一個I/O的緩存塊來管理I/O排序,并進行位址的轉換,這個新總線我打算留到講解IO Tile時具體解讀。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

接下來要講的是Meteor Lake分離式混合架構上非常重要的一個改進,它同樣位于SOC Tile之中。以往調集Uncore中的IP資源,是需要CPU計算單元進行控制和協調,那麼就要完全通電激活所有的計算單元,這同樣會大大拉低能耗比表現。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

英特爾解決方式是在SOC Tile添加一個功耗極低的能效核,其中包含兩個核心,也就是三級計算核心中的低功率計算島能效核(LP E-Core),觀看視訊時,僅需要通過它調集媒體IP的資源,讓Compute Tile和其他IP得到休息,進而降低了整體功耗。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

非常有意思的是,雖然處于不同的Tile,但英特爾完全打通了三個計算單元在系統中的調用,即使在Windows任務管理器中也可以看到三級計算核心的各自占用率。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

在将處理器分為四大功能子產品(Tile)之後,電源子產品也得以重新設計,每個Tile上都內建了專門的電源管理控制器(PMC),并在SOC Tile上設計一個總體管理單元(PUNIT),進而構成一個可實時可擴充的電源管理架構,正是它的存在,可以單獨SOC中不同IP和各個Tile的電源,實作按需調配的省電可控。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

在降低功耗上,英特爾還做了一些額外的優化:1. 內建入電壓控制的DLVRs,實作更精細的電壓控制;2. 動态調節總線頻率,按IP需求實時降低頻率,省下總下功耗;3. 針對不同的的工作負載,對軟硬體進行主動調節。

小結一下:SOC Tile是一個內建多種UNCore IP和新功能IP全新子產品,它改造了總線與電源架構,新增了第三級計算核心,總體設計是為了達成更佳的能耗比,并将AI功能內建其中,是目前英特爾在非計算核心之外最高效的UNCore設計,會深刻影響到未來數代CPU的架構設計。

03靈活高效的IO Tile設計,用雙總線架構來适配不同IP和擴充需求

看了SOC Tile的解讀,你應該能夠明白,Meteor Lake旨在打造一個可擴充的架構,是以每個Tile都希望打造出可夠的靈活性,去優化、去解決的一系列問題,當然也包含了IO Tile。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

通過這張圖可以更為清晰地看到,挂載在NOC總線上的各種IP,它的特性是特性是高帶寬、快速響應,使之上的裝置快速、低功耗的通路整個記憶體。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

SOC内部Sensing、IO Tile、以及負責輸出的Thunderbolt、PCIe、WiFi、USB 4……均通過專門的高速總線——IO Fabric串在了一起。另外還有兩個負責安全的IP,包含Meteor Lake新增加的晶片級别安全引擎SSE和平台級别的可靠性和可管理安全子產品CSME,他們負責不同層級的安全。另外,IO Tile内提還提供了USB 4和PCIe的輸出,由于直接挂載在IO Fabric上,我向英特爾特别确認,其性能與響應速度與直接挂載在IO Fabric上的輸出單元是一樣的。

04按全新的三級計算核心,來優化資源調用方式

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

剛才已經提及,英特爾打通了三個計算單元在系統中的調用,這是分離式子產品架構非常重要的計算執行邏輯,我們不妨詳細來看看,相對之前的二級混合架構,它需要在硬體線程排程器做進一步優化,讓“低功耗島”加入到合理的任務配置設定中來。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

新的計算單元架構,主要是按照功耗和所需性能、響應速度來劃分應負擔的任務,具體就一個任務如何在不同核心之間進行切換,需要硬體線程排程器提供更複雜的根本政策。需要說明的是,與之前的硬體線程排程器一樣,它并不具體配置設定程序到某一個具體核心上,而是将P-Core、E-Core、LP E-Core的實時硬體能力,向作業系統進行推薦。

具體的方式是根據每一個時鐘内執行指令的能力來劃分Class 0~Class 3四個等級,分别代表一個項目所需P-Core或E-Core正在執行的指令的多少,然後再根據E和Perf(E代表追求能效,Perf代表追求性能)的權重分别決定其落在哪個區間之内,進而去選擇正确的Core。這個機制有些複雜,一句話就是在正确的時間讓讓正确的線程運作在正确的核心上。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

Meteor Lake上主要增強了對OS的回報,當某個IP占用功耗時,核心功耗會被重新動态配置設定,更加精準的報告整個核心和每個Core的能力。比如當一個高性能的前端配置設定到4個P-Core之後,再次加入兩個程序到E-Core之上,如果P-Core執行完後,兩個較小程序還在E-Core上執行時,硬體排程會建OS将這兩個程序轉到SOC的LP E-Core上,進而可以關閉整個Compute Tile。可以看到,LP E-Core除了排程各個IP之外,它事實上也是加入到整個計算流程中來的。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

講完三級計算核心的調用,我們進一步講講全新的AI功能是如何調用的。之前我們已經說過,NPU是一個低功耗的AI加速引擎,用于解決;而CPU用于響應速度非常快計算子產品,适于随機快速響應的AI需求;而GPU則适于大規模的AI應用需求。是以,一個AI任務調集的處理器上的不同處理單元也是不同的。

05與銳炫顯示卡同構架的GPU核心,實作2倍性能提升

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

在将媒體IP、顯示IP從GPU Tile中拿出之後,不僅給GPU挪出了更加充裕的DIE上面積,。可以看到,Xe集顯相對前代擁有2倍性能提升。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

新的媒體引擎和顯示引擎從GPU從移出之後,與IO Tile上的Display PHYs顯示輸出單元一起形成了更加高效的視訊輸出流。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

另外,兩大引擎也得以更新,媒體IP支援最高8K 60 10bit HDR的解碼和8K 30 10bit HDR的編碼,并且支援VP9、AVC、HEVC、AV1等廣泛格式。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

顯示IP支援HDMI 2.1、DP 2.1(20G)、eDP1.4的輸出接口規格。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

另外,英特爾還第一次展示了全新GPU Tile的内部結構。它采用了與銳炫顯示卡相同的構架,擁有8個Xe核心,128個幾何圖形渲染管線,分布在兩個Render Slice(渲染切片)之中,有1.33倍的Pixel和Samplers的能力,并新增加了8個硬體光追單元。從整體性能來看,相比前代GPU,以更低電壓實作了更高的主頻。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

另外,銳炫顯示卡積累的主要技術特性也被繼承過來,比如更好的DX12 Ultimate的優化,支援光追和XeSS。另外還新增了亂序的采樣功能,進一步提升資料采樣的準确率。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

在Blender渲染測試中,相比CPU,它均擁有2倍以上的提升。對競品的性能比較,需要等到Meteor Lake正式釋出或者我們的評測。

另外,英特爾還展示了AI方面在PC等終端裝置上的構想和基于Meteor Lake上的演進思路,其實在此之前,我們已經從硬體構架上解決了在全新處理器上如何配置設定和應用各種AI應用,同樣包含AIGC(生成式AI)的演進。這裡,我就不再展開這個話題,結合英特爾近期在CPU和GPU産品上的AI能力進步,給大家講講AI演進中的驅動因素。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

英特爾在AI技術推進上更加強調端側的AI能力,也就是在前端盡可能解決盡可能多的使用者人群的AI需求。諸如一些小的ISV,便可利用Meteor Lake以其以後的處理器産品進行本地化的AI運算,在大規模的部署後同樣擁有與雲端媲美的AI能算力;另外,通過在PC上解決AI算力,在伺服器建設、電力、帶寬方面的支出少得多,這讓少數頂端之外的軟體開發商能夠順利推進項目;前端AI算力,還能在沒有網絡部署時持續進行,也能更好地保護使用者隐私。

更高制造技術+更高能耗比+AI加持——Meteor Lake四大子產品與AI功能詳細解讀

當然,英特爾在端側還提供了除CPU、GPU、NPU外更多的AI計算核心,通過早早布局的OpenVINO,可以打通所有算力為AI服務,這也符合英特爾的XPU産品政策。目前,AI算力的效率并不算高,通過應用不同的庫和算法,未來通過PC處理器完成強大的AIGC本地化布局并非高不可攀。

寫在最後:

目前,Meteor Lake展示出了超越全行業的巨大構架變革。對于英特爾來說,消化采用EUV制造裝置帶來的Intel 4制造技術,在大規模量産Co-EMIB封裝工藝後持續提升核心計算能力,才是最為重要的。因為這一代的處理器晶片,代表着分離式子產品構架下,英特爾所擁有的Chiplet(小晶片、芯粒)制造和整合能力,也是為英特爾推進IDM 2.0代工政策樹立标杆的最好機會。

在AI的浪潮下,英特爾也借Meteor Lake的構架釋出,拿出了自己在端側布局上的構想,也吹響了全民AI的号角。當然,最令我們感慨的是,這個創立50多年的晶片巨頭再次邁開了加速前行的步伐,Meteor Lake将是重回制程工藝巅峰的最重要一步。