天天看點

[CB]Intel 2018架構日詳解:新CPU&新GPU齊公布 牙膏時代有望明年結束

Intel 2018架構日詳解:新CPU&新GPU齊公布 牙膏時代有望明年結束

中原標準時間12月12日晚,Intel在聖克拉拉舉辦了架構日活動。在五個小時的演講中,Intel揭開了2021年CPU架構路線圖、下一代核心顯示卡、圖形業務的未來、全新3D封裝技術,甚至部分2019年處理器新架構的面紗。

通路購買頁面:

英特爾旗艦店

姗姗來遲的消費級CPU路線圖

近一段時間以來,業界一直非常期待看到Intel未來的架構路線圖,但自Skylake以來卻一直處于猶抱琵琶半遮面的狀态。最近幾個月Intel簡單公布了一部分資料中心産品路線圖,包括Cascade Lake,Cooper Lake和Ice Lake以及未來幾代,但消費級産品卻依舊難産。

在本次架構日活動上,Intel終于帶來了消費級的PC處理器架構路線圖和Atom架構路線圖。

在高性能的Core系列産品線上,Intel列出了未來三年内的三個新代号:Sunny Cove、Willow Cove和Golden Cove,其中離我們最近的Sunny Cove将于2019年上市(PS:你猜會不會鴿^_^)。

據悉,Sunny Cove架構旨在提高通用計算任務下每時鐘計算性能和降低功耗,将擁有AVX-512單元,并包含了可加速人工智能和加密等專用計算任務的新功能,将成為Intel下一代PC和伺服器處理器的基礎架構。

随後的Willow Cove在路線圖上位于2020年,很可能也是10nm。Intel将此處的重點列為緩存重新設計(可能意味着L1/L2調整)、新的半導體優化(基于制造)以及其他安全功能,可能是指新一類側信道攻擊的進一步增強。

Golden Cove則位于圖表中的2021年,工藝制程仍是一個問号,可能是10nm也可能是7nm,Intel将進一步提升其單線程性能和人工智能性能,并在核心設計中增加了潛在的網絡和AI功能,安全特性看起來也得到了提升。

Atom系列低功耗處理器的架構路線圖比酷睿系列的節奏慢,考慮到其曆史,這并不奇怪。鑒于Atom必須适應各種裝置,業界更多的是期望産品能夠提供更廣泛的功能,尤其是SoC方面。

即将在2019年推出的架構名為Tremont,專注于單線程性能、網絡伺服器性能以及電池續航時間的提升。緊随Tremont之後的将是Gracemont,Intel将其列為2021年的産品,可能會擁有更寬的矢量處理單元或支援新的矢量指令。

從路線圖上看,Gracemont之後還會有一款“XXXmont”系列核心,Intel正在研究這款新核心在2023年時可能具備的性能、頻率和特性。

上面這些是架構的名稱,而實際産品可能可能會有另外的代号,也就是酷睿系列近些年來一直使用的“XXX-Lake”命名,比如代号為Ice Lake的處理器就是由Sunny Cove架構的CPU核心與Gen11核心顯示卡聯合構成。

活動中的另一個值得關注的消息是,Intel未來的架構很可能與工藝制程脫離關系。Raja Koduri和Murthy Renduchintala博士解釋稱,為了讓産品線擁有一定的彈性,未來這些架構的最新産品将以當時可用的最佳工藝制程推向市場。

雖然沒有明說,但這應該意味着目前已經名存實亡的“Tick-Tock”政策徹底被掃進了曆史的垃圾桶,未來某些核心設計跨越不同制程的情況可能會成為常态。

窺探Sunny Cove架構

每次聽到全新處理器架構的消息時,大家最期待的都是對于新架構的詳細分析,以及相對前代的變化情況。

自Skylake于2015年首次推出以來,到目前為止Intel已經推出了Kaby Lake、Coffee Lake和Coffee Lake三代小改款,由于每代提升都不大,被玩家戲稱為“擠牙膏”。雖然這次Intel展示了全新的Sunny Cove架構,但遺憾的是其資訊還不夠全面,主要集中在架構設計的後端部分。

Intel将其微體系結構更新分為兩個不同的部分:通用性能提升和特殊用途性能提升,通用性能提升指原始IPC(每時鐘指令)吞吐量或頻率增加,IPC的增加可能來自核心更寬(每個時鐘執行指令更多)、更深(每個時鐘更多并行)或更智能(通過前端更好的資料傳輸),而頻率通常是實作和過程的函數,而特殊用途性能提升可以通過其他加速方法(如專用IP或專用指令)來改進特定方案中使用的某些工作負載。

據悉,Sunny Cove在通用性能和特殊用途性能兩個方面有着全方位的提升。在架構的後端部分,Intel已經做了包括增加高速緩存大小、增加核心執行寬度、增加L1存儲帶寬等改進。

Sunny Cove架構的L1資料緩存從32KB更新為48KB,通常當緩存容量增大時,緩存未命中的機率将以平方根的比例降低,是以Sunny Cove架構的L1緩存未命中率理論上可減少22%。同時Sunny Cove架構Core和Xeon處理器的L2緩存也将分别比目前的256KB和1MB有所增加,具體容量尚未可知。

此外,微操作(uOp)緩存和二級TLB雖然不屬于後端,但其容量也都相比目前有所增加,這将有助于機器位址轉換。圖中還可以看到一些其他更改,例如執行端口從8增加到10,允許一次從排程程式中獲得更多指令;重排序緩沖區的排程也從每個周期4條指令增加到5條指令;端口4和端口9連結到了一個循環資料存儲,使帶寬加倍,但AGU存儲功能也增加了一倍,這将有助于增加L1-D大小。

Sunny Cove架構的執行端口也發生了重大變化,詳情見下圖:

我們看到Intel為核心的整數部配置設定備了更多LEA單元,以幫助進行記憶體尋址計算,可能有助于通過需要頻繁記憶體計算的安全緩解來幫助改善性能損失,或者幫助提供具有恒定偏移的高性能陣列代碼。端口1從Skylake端口5擷取MUL(乘法)單元,可能用于重新平衡,但此處還有一個整數分頻器單元。這是一個小小的調整,Cannon Lake在其設計中也有一個64位IDIV(帶符号整數除法)單元,在這種情況下,它将64位整數除法從97個時鐘(混合指令)降低到18個時鐘,Sunny Cove可能與之類似。

在整數運算單元方面,端口5的乘法單元已成為“MulHi”單元,在其他架構中,它會在寄存器中留下最重要的半位元組以便進一步使用,但目前不能确定它在Sunny Cove核心中的位置究竟是什麼。

在浮點運算單元方面,Intel增加了洗牌資源,這是出于消除代碼中瓶頸的考慮。Intel沒有在核心的浮點運算部分說明FMA(熔加運算)的功能,但既然核心内有一個AVX-512單元,這些FMA中就應至少有一個與之互動。Cannon Lake隻有一個512位的FMA,這個FMA很可能在這裡,而Xeon的可擴充版本可能會有兩個FMA。

Intel列出的其他更新包括分支預測器的改進,以及由TLB和L1-D帶來的有效負載延遲降低。有人指出這些改進無法幫助到所有使用者,可能隻有全新的算法才能使用這些特定部分的核心能力。

除了架構上的差異,Sunny Cove還增加了新的指令以幫助加快專業計算任務。随着AVX-512單元的出現,新架構将支援用于大算術計算的IFMA(帶符号熔加運算)指令,這些指令在密碼學中非常有用。Sunny Cove還支援Vector-AES、Vector Carryless Multiply、SHA、SHA-NI以及Galois Field指令,這些指令也是密碼學的一些元素中的基本建構塊。

Sunny Cove支援更大的記憶體容量,其主存儲器分頁表從4層增加到了5層,支援最多57bit線性位址空間和最多52bit實體位址空間,這意味着伺服器處理器理論上可支援單插槽4TB記憶體。

根據Intel之前的Xeon路線圖,Sunny Cove将在2020年與Ice Lake-SP一起在伺服器領域上市。為了安全起見,Sunny Cove具有多密鑰全記憶體加密和使用者模式指令預防功能。

Gen11核心顯示卡

2015年,Intel推出了采用Gen9核心顯示卡的Skylake處理器,不過随後Kaby Lake和Coffee Lake的核心顯示卡都隻是Gen9.5而非Gen10。實際上,Intel 10nm Cannon Lake處理器本該對應Gen10,但Intel從未釋出過帶核心顯示卡的PC端Cannon Lake處理器。

今天,Intel首席架構師、核心與視覺計算集團進階副總裁兼邊緣計算解決方案總經理Raja Koduri直接公布了全新的Gen11核心顯示卡,并重申了在2020年推出獨立圖形處理器的計劃。

根據路線圖,Gen11核心顯示卡将于2019年開始随10nm處理器一同面世,配備64個EUs(增強型執行單元),運算規模是此前Gen 9核心顯示卡的2倍,浮點運算性能超過1TFlops。這64個EUs被分成4個切片,每個切片由2個8EUs的子切片組成,每個子切片均擁有指令緩存和3D采樣器,而較大的4個切片則擁有2個媒體采樣器、1個PixelFE以及額外的加載/存儲硬體。

Intel并沒有透露太多關于如何提高EU性能的詳情,但表示EU内部的浮點運算單元接口是重新設計,支援快速(2x)FP16性能。每個EU均像以前一樣支援7個線程,這意味着整個GPU有512個并發管道,Intel表示已經重新設計了記憶體接口,并将GPU的L3緩存增加到3MB,相比Gen9.5增加了4倍。

Gen11核心顯示卡的一項重大改進是終于支援了瓦片式渲染,這讓Intel成為繼2014年的NVIDIA和2017年的AMD之後,最後一個實作這一特性的PC GPU供應商。雖然瓦片式渲染不是解決GPU性能問題的靈丹妙藥,但是優化良好的瓦片式渲染可以很好的适應核心顯示卡的帶寬限制。

與此同時,Intel的無損記憶體壓縮技術也有所改善,在最佳情況下性能可提高10%,平均可提高4%。GTI接口現在支援每個時鐘讀寫64位元組以增加吞吐量,以與重新設計的記憶體接口相配合。

Gen11核心顯示卡還支援Intel全新的多速率着色技術Coarse Pixel Shading(粗像素着色),這與NVIDIA的可變像素着色很相似,能讓GPU減少陰影部分像素所需的渲染操作量。Intel為CPS展示了兩個示範,其中像素陰影分别作為與相機距離和螢幕中心相關的一個函數,當物體離相機或螢幕中心較遠時渲染量減少,其設計目的是幫助VR實作注視點渲染等功能,Intel表示遊戲在支援這一技術後可提高約30%的幀率。

Raja Koduri宣布了Intel獨立顯示卡業務的新産品品牌:Xe,目前仍被非正式的稱為“Gen12”系列,将從2020年開始覆寫從用戶端到資料中心的所有領域,也涵蓋了未來的核心顯示卡解決方案,Intel希望Xe從入門到中檔,再到發燒友以及AI,都能向競争對手最好的産品發起競争。

Xe将從10nm節點開始,為未來幾代圖形奠定基礎,并将遵循Intel的單一堆棧軟體哲學,即希望軟體開發人員能夠利用CPU、GPU、FPGA和AI,所有這些都使用同一套API,這表明Intel已經準備好圍繞一個品牌向前發展。

作為架構日活動的一部分,Intel在現場進行了大量晶片示範,據稱這些示範均是基于新的Sunny Cove核心和Gen11核心顯示卡,目前的示範涉及項目包括7-Zip應用和鐵拳7遊戲兩部分。

7-Zip項目相對直接,示範機的同頻性能相較于SkyLake平台提高了75%,展示了Sunny Cove架構的Vector-AES和SHA-NI等新指令所帶來的特殊用途性能提升。而在鐵拳7中,Sunny Cove+Gen11的示範機與SkyLake+Gen9相比更順暢,完全超出30fps的最低要求。

改變晶片制造方式的Foveros 3D封裝

關注過半導體晶片設計的人都應該清楚,目前生産的大多數CPU和SoC都是基于單片晶片的模具,即在封裝和進入系統之前,單片矽片内就已經具備了所需的一切。此外,還有一些帶有共享連接配接的多晶片封裝,以及将不同晶片通過高速互連連接配接在一起的載闆或嵌入式橋産品。

在現代晶片設計中,最大的挑戰之一是盡量減少晶片面積,這樣可以降低成本和功耗,并且可以使其更容易在系統中實施。不過,當涉及到提升性能時,大型單晶片或多晶片封裝的缺點之一是與記憶體距離太遠,是以Intel準備将3D堆疊引入大衆市場。

Raja介紹稱,Intel數十年來一直專注于高性能工藝節點,試圖盡可能多的釋放其核心性能。除此之外,Intel還以類似的節奏運作IO優化工藝節點,但更适合PCH或SoC類型的功能。

126x和127x是Intel程序節點技術的内部編号系統,不過圖上并沒有區分出帶“+”字尾的節點變體。Raja展示了現有的2019年工藝技術,計算核心方面有10nm的1274工藝,IO方面有14nm的1273工藝,而本次介紹的Foveros 3D堆疊技術工藝代号是P1222。展望未來,Intel将擴大其節點基礎,以便它可以覆寫更多的功率和性能點。

為了實作這一目的,一種方法是通過貼片和封裝,為每種情況下的工作選擇最佳半導體,無論是CPU、GPU、IO、FPGA、RF還是其他東西,隻要使用正确的封裝,就可以将它們放在一起以獲得最佳的優化。

這正是Foveros的用武之地。Foveros是英特爾新推出的有源載闆技術,其設計相比2018年推出EMIB(嵌入式多晶片互連橋接)2D封裝技術,更适用于小尺寸産品或對記憶體帶寬要求極高的産品。在這些設計中,每比特傳輸的資料的功率非常低,而封裝技術要處理的是凹凸間距減小、凹凸密度增大以及晶片堆疊技術。Intel表示Foveros已經準備就緒,可以大規模生産。

這個技術的第一次疊代不像上面的幻燈片那麼複雜,隻是使用了一組連接配接到下面PCH的CPU核心,但Intel可以在不同的晶片上使用不同的半導體類型,比如在一塊使用22FFL制程的載闆上放置一組10nm的CPU。

Intel在架構日現場展示了Foveros晶片,其采用22FFL IO晶片作為有源載闆,并用TSV(矽通孔技術)連接配接了一顆10nm晶片,其中包含1個Sunny Cove核心和4個Atom核心(可能是Tremont)。這款微型晶片尺寸為12*12,待機功率僅為2mW,看起來似乎是面向移動裝置。

在Intel的幻燈片上可以看到,Sunny Cove核心的“Big CPU”帶有0.5 MB獨享L2緩存,4個小型Atom核心則有1.5MB共享L2緩存,兩組核心共享4MB L3緩存。晶片還內建了64EUs的Gen11核心顯示卡、四通道LPDDR4記憶體控制器(4*16bit),以及支援DisplayPort 1.4的MIPI(移動産業處理器接口)。

Jim Keller表示,Intel正在嘗試使用Foveros技術制造許多新玩意兒,看看哪些可能成為一個好産品,是以在2019年和2020年業内應該能看到更多Foveros産品。

一些周邊消息

在本次架構日活動中,最“沒激情”的部分應該是有關資料中心産品的讨論。Intel之前已經公布了企業市場接下來的兩款産品是Cascade Lake和Cooper Lake,均以14nm為基礎,專注于增強安全性以及幫助加速的AI指令,随後還會有10nm的Ice Lake Scalable,但也僅此而已。

不過在活動中Intel還是證明了Ice Lake将基于Sunny Cove架構打造建構,并展示了Ice Lake Xeon 10nm處理器的封裝,算是一點安慰性的新消息吧。

此外,Intel還在活動上介紹了傲騰技術、One API軟體以及深度學習參考堆棧等内容。

One API軟體:Intel宣布推出“One API”項目,以簡化跨CPU、GPU、FPGA、人工智能和其它加速器的各種計算引擎的程式設計。該項目包括一個全面、統一的開發工具組合,以将軟體比對到能最大程度加速軟體代碼的硬體上。公開發行版本預計将于2019年釋出。

傲騰技術:Intel傲騰資料中心級持久記憶體作為一款新産品,內建了記憶體般的性能以及資料的持久性和存儲的大容量。這項技術通過将更多資料放到更接近CPU的位置,使應用在人工智能和大型資料庫中的更大量的資料集能夠獲得更快的處理速度。其大容量和資料的持久性減少了對存儲進行通路時的時延損失,進而提高工作負載的性能。

Intel傲騰資料中心級持久記憶體為CPU提供緩存行(64B)讀取。一般來說,當應用把讀取操作定向到傲騰持久記憶體或請求的資料不在DRAM中緩存時,傲騰持久記憶體的平均空閑讀取延遲大約為350ns。如果實作規模化,傲騰資料中心級固态盤的平均空閑讀取延遲約為10000ns(10μs),這将是顯著的改進。在某些情況下,當請求的資料在DRAM中時,不管是通過CPU的記憶體控制器進行緩存還是由應用所引導,記憶體子系統的響應速度預計與DRAM相同(小于100 ns)。

Intel還展示了傲騰與QLC固态硬碟的結合,将降低對最常用資料的通路延遲。總體來說,這些對平台和記憶體的改進重塑了記憶體和存儲層次結構,進而為系統和應用提供了完善的選擇組合。

深度學習參考堆棧(Deep Learning Reference Stack):這是一個內建、高性能的開源堆棧,基于Intel至強可擴充平台進行了優化。該開源社群版本旨在確定人工智能開發者可以輕松通路Intel平台的所有特性和功能。深度學習參考堆棧經過高度調優,專為雲原生環境而建構。該版本可以降低內建多個軟體元件所帶來的複雜性,幫助開發人員快速進行原型開發,同時讓使用者有足夠的靈活度打造定制化的解決方案。

作業系統:Clear Linux 作業系統可根據個人開發需求進行定制,針對Intel平台以及深度學習等特定用例進行了調優; 編排:Kubernetes可基于對Intel平台的感覺,管理和編排面向多節點叢集的容器化應用; 容器:Docker容器和Kata容器利用Intel虛拟化技術來幫助保護容器; 函數庫:Intel深度神經網絡數學核心函數庫(MKL DNN)是Intel高度優化、面向數學函數性能的數學庫; 運作時:Python針對Intel架構進行了高度調優和優化,提供應用和服務執行運作時支援; 架構:TensorFlow是一個領先的深度學習和機器學習架構; 部署:KubeFlow是一個開源、行業驅動型部署工具,在Intel架構上提供快速體驗,易于安裝和使用。

繼續閱讀