45nm Penryn家族成員衆多
【IT168評測中心】Intel的Tick-Tock平台戰略正有條不紊的推行着,Intel将會将處理器平台全面由65nm平台轉向 45nm平台,新的處理器家族被稱為Penryn,關于Intel的45nm Penryn相信大家都已經從鋪天蓋地的宣傳中已經很熟悉了。Penryn處理器具備了強大的計算能力和極低的功耗,它包含3個産品線共7名成員,包括有 雙核心桌面處理器Wolfdale、四核心桌面處理器Yorkfield、雙核心移動處理器Penryn、雙核心Xeon DP處理器Wolfdale DP、四核心Xeon DP處理器Harpertown、雙核心Xeon MP處理器Dunnington DC及四核心Xeon MP處理器Dunnington QC。
Intel全線伺服器産品線路圖
按照既定的計劃,Intel将會在11月份釋出16款45nm Penryn家族處理器,其中包括了一款桌面級的Core 2 Extreme QX9650處理器,其他的15款都屬于伺服器處理器平台,其中12款全新四核處理器的主頻均在2 GHz-3.20 GHz之間,前端總線速度(FSB)高達1600 MHz,而且高速緩存規格為12 MB。另外3款全新雙核處理器的主頻則高達3.40 GHz、FSB高達1600 MHz、高速緩存為6 MB。
關于45nm Penryn桌面級Core 2 Extreme QX9650處理器, 我們已經做了詳細的測試,其多媒體性能大幅提升、功耗大幅下降,讓人怦然心動。伺服器的45nm Penryn處理器性能如何呢?國内著名的伺服器廠商浪潮在第一時間送來采用了45nm Xeon DP E5440處理器(代号Harpertown)的伺服器平台,我們IT168評測中心第一時間對這款NF290D進行了全面的評測。通過本文,讀者可以了 解到45nm Penryn Xeon伺服器處理器具有的實力,并對45nm Xeon平台都會有更深入的認識。
伺服器處理器平台中,Xeon DP系列是最常見的處理器之一,Xeon DP處理器經曆了Paxville DP(雙核,Netburst)、Dempsey(雙核,Netburst,Benlsey平台)、Woodcrest(雙核,Core,Benlsey 平台)和Clovertown(四核,Core,Benlsey平台)這樣的一個曆程,現在45nm平台中,Xeon DP也更新到了Wolfdale DP(雙核,增強Core架構,Stoakley平台)和Harpertown(四核,增強Core架構,Stoakley平台)。
代号 | 型号 | SMP | 主頻 | FSB | L2 | TDP | 接口 | 制程 |
Clovertown | Xeon E5310 | DP | 1.60 | 1066Mhz | 8MB | 80W | LGA771 | 65nm |
Xeon E5320 | DP | 1.86 | 1066Mhz | 8MB | 80W | LGA771 | 65nm | |
Xeon E5335 | DP | 2.00 | 1333Mhz | 8MB | 80W | LGA771 | 65nm | |
Xeon E5345 | DP | 2.33 | 1333Mhz | 8MB | 80W | LGA771 | 65nm | |
Xeon X5355 | DP | 2.66 | 1333Mhz | 8MB | 120W | LGA771 | 65nm | |
Xeon X5365 | DP | 3.00 | 1333Mhz | 8MB | 120W | LGA771 | 65nm |
目前主流4核Xeon: Clovertown
代号 | 型号 | SMP | 主頻 | L2 | TDP | 制程 |
Harpertown | Xeon E5405 | DP | 2.00 | 12MB | 80W | 45nm |
Xeon E5410 | DP | 2.33 | 12MB | 80W | 45nm | |
Xeon E5420 | DP | 2.50 | 12MB | 80W | 45nm | |
Xeon E5430 | DP | 2.66 | 12MB | 80W | 45nm | |
Xeon E5440 | DP | 2.83 | 12MB | 80W | 45nm | |
Xeon E5450 | DP | 3.00 | 12MB | 80W | 45nm | |
Xeon E5460 | DP | 3.16 | 12MB | 120W | 45nm |
45nm Xeon第一波:Harpertown
45nm Xeon DP包括了兩個型号:Harpertown和Wolfdale DP。代号為Harpertown的Xeon DP處理器是四核處理器,代号為Wolfdale-DP的處理器為雙核處理器,它們都是Penryn架構處理器衍生産品,均采用了45nm High-k制程技術。從65nm到45nm的轉變,不僅僅是目前晶片設計在體積上的縮小。此類處理器中還增加了許多新的特性,如全新的英特爾? SIMD流指令擴充4(SSE4),可通過47條全新指令加快包括視訊編碼在内的工作負載的處理速度,進而支援高清晰度畫質和照片處理,以及重要的HPC 和企業應用。據稱,與前代四核Intel Xeon DP 5300系列處理器相比,45nm High-k Intel Xeon處理器的性能功耗比提升了38%,進一步鞏固了其性能功耗比領先優勢。
和上一代Clovertown相比,Harpertown處理器将2 x 4MB的L2緩存提升到了2 x 6MB L2緩存,每兩個核心共享6MB緩存。Harpertown處理器将不再使用舊的1066MHz FSB,而開始支援更高的1333MHz/1600MHz FSB。由于采用了45nm High-k制程技術,四核Harpertown的功耗依然保持同現有的雙核大緻相當的水準,TDP依然為50瓦、80瓦和120瓦,并且頻率規格也有所 提高,最高端的Xeon E5460處理器可以達到3.16GHz,而上一代Xeon X5365隻有3.00GHz,這意味着新的Harpertown平台的計算密度可以得到很大的提升。
在Intel的Tick-Tock戰略上,Penryn是45nm工藝的第一個處理器産品線,是以其核心架構在Core微架構上進行改良,除了45nm工藝帶來的電氣改進之外新的Penryn微架構主要有5方面:
Intel Wide Dynamic Execution(Intel寬動态執行)方面的改進着實從基礎上提升了處理器的運算性能,包括快速16進制除法器、更快速的作業系統基礎支援、增強的Intel虛拟化技術三個部分。
Intel Advanced Smart Cache(Intel先進智能緩存)則進一步提升了緩存性能,以符合未來多核心的趨勢,其包括了更大容量的緩存以及更多路的緩存關聯。
Intel Smart Memory Access(Intel智能記憶體存取)提升了裝載資料的速度,包括強化的存儲轉發結構和更高的總線帶寬設計。
Intel Advanced Digital Media Boost(Intel先進數字媒體增強)則是對數字媒體的一系列優化、增強,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超級傳送引擎。
Intel Intelligent Power Capability(Intel智能電源特性)則是充分發揮新制程的特點,降低總體能源的消耗,包括了深層關機技術和增強的Intel動态加速技術。
雖然45nm Penryn的并非基于全新的架構,然而在測試當中,45nm桌面處理器QX9650的性能有了比較明顯的提升,是以我們預計,從Clovertown到Harptertown也會具有相似的結果,下面我們先來看看微架構上影響性能的這些主要改進。
基本上,45nm Penryn處理器的架構和Core 2架構很相似,微架構方面的主要改進如下:
Intel Wide Dynamic Execution(Intel寬動态執行)方面的改進着實從處理器基礎架構上提升了處理器的運算性能,它包括快速16進制除法器、更快速的作業系統基礎支援、增強的Intel虛拟化技術三個部分。與桌面平台相關的主要是16進制除法器,而伺服器則可以從所有的改進内容中獲益。
Faster Radix-16 Divider(快速Radix-16除法器)
雖然除法也可以用乘法來代替,不過單獨的除法指令、除法運算器部件顯然可以提升效能,Penryn架構搭載了新的16進制除法部件,可以提供目 前最頂級的除法性能。傳統的2進制或者4進制除法隻能在每個時鐘處理1位或者2位資料(2個位就能表示4個數,也就是4進制的意思),而Penryn 16進制除法器可以每個時鐘處理4位資料(4個位就能表示16個數),可以大大提升包括整數、浮點在内的除法性能,并大大優化了平方根的運算,而且 Penryn的除法器的Early-out構造可以以極低的延遲輸出結果,最小值需要6個時鐘周期。除法器的性能提升幾乎涉及到了所有的應用程式。
Faster OS Primitive Support(更快速的作業系統基礎支援)
Penryn通過提升中斷遮罩控制以及時間戳計數器的性能,進而達到提升作業系統同步性能的目的。通常的多任務作業系統中,需要通過大量的中斷 請求來配置設定處理器資源給各個部件,而在繁忙的作業系統中,不同程式中大量的定時器/計數器需要不停地查詢時間戳計數器,通過2倍于原來速度的CLI /STI/RDTSC指令執行速度,Penryn架構大大提升了這些應用的性能,例如資料中心、事務處理等應用都可以從中獲得明顯的提升,這有點像現代芯 片組中新增加的精确時鐘技術,這個技術可以比較明顯地提升繁忙的伺服器的性能表現。
Enhanced Intel Virtualization Technology(增強的Intel虛拟化技術)
作為目前的熱點,也是Intel目前專注的部分,虛拟化技術也沒有被忽略,這個持續發展中的技術也獲得了改進:VM Exit/VM Entry性能獲得了25%~75%的提升,在虛拟化應用中,虛拟機切換是很頻繁的,VM Exit/VM Enry的執行也就很是頻繁,這方面的改進可以明顯地改進虛拟機(特别是多虛拟機)下的性能。
Intel Advanced Smart Cache(Intel先進智能緩存)則進一步提升了緩存性能,以符合未來多核心的趨勢,其包括了更大容量的緩存以及更多路的緩存關聯,伺服器對L2緩存的利用效率是非常高的。
Intel Advanced Smart Cache其實就是L2緩存方面的改進,Penryn處理器家族的L2緩存容量得到了提升,雙核心版本将擁有最多6MB、四核心将擁有最多12MB的L2 緩存,比上一個版本增大了50%。并且在容量提升的基礎上,Penryn還把L2 Cache的Associativity關聯性由上一代的16路提升到了24路,令L2緩存存取的平均潛伏期得到了進一步的下降。
Intel Smart Memory Access(Intel智能記憶體存取)提升了裝載資料的速度,包括強化的存儲轉發結構和更高的總線帶寬設計。
除了更快的1600MT/s總線可以提供更高的存取速度之外,Penryn架構還提供了Improved Store Forwarding強化存儲轉發特性,通過新的64位載入指令,提升了記憶體之間、核心之間等的存儲轉發性能。
Intel Advanced Digital Media Boost(Intel先進數字媒體增強)則是對數字媒體的一系列優化、增強,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超級傳送引擎,這一點留待下一節介紹。
Intel Intelligent Power Capability(Intel智能電源特性)則是充分發揮新制程的特點,降低總體能源的消耗,包括了深層關機技術和增強的Intel動态加速技術(該項改進主要針對移動平台)。
SSE4——Penryn搭載的SSE4.1指令集主要分為三個部分,分别是SSE4視訊編碼加速部分、SSE4圖形加速部分和SSE4流加載部分,其中SSE4視訊編碼加速部分包括了14條指令,用于加速4x4絕對差和、子像素過濾一擊資料查找方面的性能。
在進行視訊編碼時,需要進行大量的Motion Estimation(動态預測),動态預測是視訊編碼過程中極其重要的一個環節,它的算法效率對整個編碼效率有很大的影響,而這個動态預測需要進行大量 的SAD(Sums of Absolute Difference,差分絕對值和)的運算,該運算是大部分視訊編碼算法中運動估計一步常采用的方法。SAD算法将會在相鄰兩個連續視訊幀中找出一個大 塊的運動情況,以紀錄其運動資料代替紀錄像素資料而節約存儲容量、壓縮視訊。為此,SAD需要計算兩個大塊中每一組對應的像素值之間絕對內插補點的累加和。這 本身就是一個非常複雜的大資料量運算動作,即使依靠SIMD指令的一條指令就處理大量資料的優勢,要組合成SAD操作代碼也需要大量的指令。
現在,SSE4指令集内特别加入了SAD加速運算指令,隻需要一條指令就可以快速高效地完成這些工作。例如,在SSE4之前,一個SAD工作代碼如下:
非常的冗長繁瑣,而在有了SSE4之後,這些指令就可以簡化為一條指令:
MPSADBW xmm0,xmm1,0
簡化量是非常巨大的。而在複雜的動态預測程式中,要執行複雜的SAD代碼,這時SSE4還可以額外提供更高的友善性:
SSSE3可以看作是SSE4的一個提前“洩露”的子集,同樣的工作,右邊的SSE4代碼無疑要比SSSE3更為簡捷。
SSE4當中還加入了快速查找的指令,雖然并不僅僅是視訊編碼才能具有作用,然而對于整位像素和子像素運動估計方面具有特别好的效果,如下圖的指令可以在8個元素中找到最小的一個元素,并找到其位置:
在Intel的SSE4展示當中,使用搭載SSE4指令集的2.66G Wolfdale Core 2系統對比2.33G Core 2 Duo E6550進行Pegasys TMPGEnc 4.0 XPress HDTV編碼,最後得到了55%的性能提升,其中加速的SAD處理和快速查找在各自的領域的性能提升達到了2~3倍,SSE4指令集的作用可見一斑:
其中,CPU的頻率提升隻有14%,總應用程式提升卻達到了55%,這就是SSE4視訊編碼加速指令的作用了。
Penryn架構中SSE4相關的改良還有一個:就是Super Shuffle Engine,Intel稱之為超級亂序引擎,不過我們認為稱之為超級傳送引擎更為貼切一些:
Super Shuffle Engine超級傳送引擎
Super Shuffle Engine其實是加速SSE相關資料的傳輸轉移過程,包括打包、解壓、對齊、寬進位等操作,都可以通過Super Shuffle Engine來加速,進而可以在每個時鐘周期内完成128位的操作。這個加速是完全硬體的,不需要軟體的變動。
SSE4目前看來對視訊伺服器的性能提升強于對桌面系統的提升,然而由于SSE4指令集也有很多基本的運算加速指令,我們以後将會詳細考察這個指令集在伺服器實際性能上是否會有提升。
作為一種“平台化政策”,Intel在釋出處理器的時候也會為其準備相應的晶片組。45nm High-K Xeon DP處理器與采用了Intel 5000晶片組家族的Bensley伺服器平台完全相容,此外,Intel還将推出三款平台解決方案來支援45nm Xeon DP處理器,它們分别是:
基于Intel 5400晶片組的平台(代号為Stoakley),專門針對高性能計算(HPC)等需要高帶寬的應用進行了優化,作為Harpertown的主流配合晶片組,我們将主要對其進行介紹;
基于Intel 5100晶片組和Intel ICH9R晶片組的平台(代号為Cranberry Lake)。這些成本優化型解決方案能夠支援單路或雙路處理器,同時還使用原生DDR2記憶體來降低能耗;
基于Intel 3200晶片組的平台(代号為Garlow),專為單路入門級伺服器而設計。
目前的Bensley平台由64nm Clovertown處理器和5000晶片組組成
現有的Bensley平台可以完善地支援新45nm Xeon DP處理器,包括了5000V、5000P、5000X北橋,Bensley平台将處理器的最高FSB頻率限制在了1333MHz,是以隻适合比較底端的Harpertown處理器。
5000P北橋采用了DIB前端總線,速率是1066/1333 MT/S,兩條FSB的最大總帶寬剛好和記憶體帶寬一緻,5000P提供了4通道667MHz FB-DIMM支援,每通道帶寬5.3GB/s,總共就是21.2GB/s的巨大記憶體帶寬,每個通道支援4個Dual Ranked FB-DIMM DDR2 DIMMs,最大總容量達到了64GB。5000P還能支援Memory RAID 1(miroring),可以提供更強的容錯性,此時最大有效記憶體容量就變為裝載記憶體的一半,最大是32GB。5000V則是5000P的簡化版本,可重 配置的PCI-E x8界面少了一個,FB-DIMM記憶體通道也降低到了兩個,連帶總記憶體容量也降低到了32GB(在Memory RAID 1下,就是16GB),面向相對低端的伺服器市場,而最高端的5000X應該是5000系列中最強的晶片組型号,不僅僅是因為具有一條可以拆分為4個 PCI-E x4的PCI-E x16插槽用于連接配接高帶寬的顯示卡,還因為它配備了特有的Snoop Filter探聽過濾器功能,可以大大提升多總線、多執行核心環境的性能表現。
探聽過濾器是位于晶片組中的高速緩存标記結構,它可追蹤處理器中的高速緩存的高速緩存線狀态——隻是包括其标簽和狀态,不包括資料,過濾不必要 的探聽,幫助多個處理器核心更好的協作,以提升多路處理器系統的工作效率。最早是IBM将Snoop filter功能引入到其X3晶片組中,随後英特爾Blackford晶片組中也引入了該功能。5000X晶片内總共具有16MB的Snoop Filter緩存。Stoakley平台——基于Seaburg晶片組将能提供達24MB的Snoop Filter緩存。
除了強大的FSB帶寬和記憶體帶寬之外,5000P還配備了強大的I/O能力,包括兩個可重配置的PCI-E x8界面和一個ESI南北橋界面。ESI是Enterprise Southbridge Interface的意思,從各方面看都和桌面晶片組的DMI總線差不多,都是2GB/s的雙向連結帶寬,内部都一樣基于PCI-E技術(加入了一些新的 指令),不同的地方在于,ESI總線可以并入最多兩個PCI-E x4總線用來擴充帶寬,5000P的PCI-E x8分開配置的兩條PCI-E x4界面剛好符合要求,這樣ESI總線最多可以提供6GB/s的南北橋帶寬,目前來看已經足夠支援外部裝置了。當然外部裝置不通過南橋直接用PCI-E和 5000P連接配接也可以。
Stoakley平台由45nm Harpertown處理器和5400晶片組組成
新的Stoakley平台——基于Intel 5400晶片組——可支援現有的65nm制程的Xeon 5100和Xeon 5300處理器,最主要地支援45nm、High-k制程雙核/四核處理器。
新平台的MCH晶片代号為Seaburg,型号為5400,它依然采用了DIB前端總線,工作模式為1066/1333/1600MT/s,可 提供17-25.6GB/s的資料傳輸帶寬——這也意味着未來的45nm雙核或者四核Xeon處理器的FSB将會達到1600MHz。為了保證雙路四核系 統的效能,Seaburg整合了容量高達24MB的Snoop Filter(探聽過濾器)。
在以前的5000X晶片組上,我們就已經看到了Snoop Filter的存在,現在Seaburg将5000X的16MB容量擴充的更大。探聽過濾器是位于晶片組中的高速緩存标記結構,它可追蹤處理器中的高速緩 存的高速緩存線狀态——隻是包括其标簽和狀态,不包括資料,過濾不必要的探聽,幫助多個處理器核心更好的協作,以提升多路處理器系統的工作效率。
Seaburg整合了4通道FB-DIMM 533/667MHz記憶體控制器,最高可提供21GB/s的記憶體帶寬。當然,我們不排除細分市場的需要,會有雙通道版本的Seaburg。Seaburg 所整合的記憶體控制器最高尋址範圍為38bit(128GB),是上一代MCH的一倍。
Seabury MCH依然通過ESI總線同631x ESB/632x ESB I/O Controller Hub通訊。Intel ESB晶片的開發進度似乎很緩慢,我們分析這應該是同PCIe總線應用越來越多有關,大部分的高吞吐量裝置都可通過PCIe總線同MCH通訊,ESB更多 的是保持對于傳統裝置和低速裝置的支援。
Seaburg提供了44條PCIe x1(PCIe 1.x)通道,相比Blackford多出了12條,而且這些PCIe通道均可靈活配置,是以可充分滿足連接配接多個高速裝置的需求。Seaburg還提供了 兩條PCIe x16(PCIe 2.0)通道,可用于支援顯示卡等裝置。
Stoakley平台還能提供2個千兆以太網端口和1個萬兆以太網端口,此外可利用Intel IOP 348處理器實作對于SAS/SATA 3Gb/s裝置的支援。
根據IDC六月份終端使用者調查報告顯示,2007新購買的x86伺服器中有40%被用于了虛拟化應用,還預計今年部署了虛拟化應用的伺服器會占 所有伺服器數量的10%,到2010年的時候可能會接近20%,虛拟化市場已經開始成熟。Intel自然也不會放過這個市場。Intel認為具有卓越的性 能、高度的可靠性平台将會有助于推動虛拟化應用的進一步普及,現在,新的45nm處理器搭載了多種虛拟化方面的增強技術。
從VT-x/VT-i到VT-d,再到I/O AT/VMDq
Intel将其虛拟化戰略分為三步走。用于X86架構的VT-x和用于安騰架構的VT-i都是基于CPU的虛拟化技術,它們都是在CPU中增加 了專門的硬體輔助電路,幫助提升虛拟化的效率。VT-d虛拟化技術則着眼于整個平台,晶片組和相關的I/O裝置也加入了進來。第三步則是在I/O層面上的 虛拟化,I/OAT2技術已經初步的實作了部分功能。
在Intel沒有推出虛拟化技術之前,所有虛拟機VM的各種請求(比如邏輯處理器、邏輯I/O裝置)都需要經過 VMM軟體的轉換和維護,這個過程是純軟體的過程,是以占用系統資源高,效率低下。更要命的是,所有的記憶體存取都經過VMM控制會有安全隐患,産生錯誤的 幾率也會增加,影響了虛拟化的隔離性和可靠性。
在VT-x技術中增加了兩個全新的執行模式VMX Root模式(用于VMM)和No-Root模式(用于Guest OS),這樣可以讓虛拟機上的作業系統直接運作在Ring 0上。此外還增加了VM Entry和VM Exit兩種轉換模式。VM Entry程序包括從VMM向Guest傳輸指令或者資料,進入到Non-Root模式,從VMCS載入Guest狀态和VM Exit條件。VM Exit程序包括從Guest向VMM傳輸指令或者資料,進入到Root模式,在VMCS儲存Guest狀态并且重新載入Guest狀态。這些功能的實作 主要借助基于硬體的VMCS(VM Control Structure)來實作。
在上一代的VT-x技術基礎上,45nm Penryn的虛拟化性能也獲得了持續的改進:VM Exit/VM Entry性能獲得了25%~75%的提升,在虛拟化應用中,虛拟機切換是很頻繁的,VM Exit/VM Enry的執行也就很是頻繁,這方面的改進可以明顯地改進虛拟機(特别是多虛拟機)下的性能。
VT-d則是在平台層面上實作了I/O虛拟化(主要展現在整合于晶片組内的專用電路),它定義了一個用于DMA重映 射的架構,可直接将I/O裝置配置設定給未經修改的VMs或者半虛拟化VMs。不僅Stoakley平台會支援VT-d,未來更多的Intel伺服器平台都會 支援這些功能。關于VT-d的更詳細的解析,可以參看:從VT-x到VT-d Intel虛拟化技術發展藍圖。
I/OAT2平台級I/O優化方案
随着新45nm處理器的更新,Intel也計劃全面更新Xeon DP和Xeon MP伺服器平台,無論是定位于嵌入式應用的Cranberry Lake平台、還是定位于主流雙路處理器的Stoakley平台、或者是定位于多路處理器的Caneland平台,都将會支援新一代的I/OAT2技術 (代号Crystal Beach2),I/OAT技術是和虛拟化技術緊密相關的。
I/OAT2有兩個主要的設計目的,第一個是進一步增強資料中心網絡I/O能力,第二個繼續保持Intel I/OAT的無狀态架構優勢。同樣,I/OAT2依然是一個平台級的I/O優化方案,涉及到了CPU、晶片組、網卡控制器、等多個方面。
第一代的I/OAT通過增強軟體接口、軟體預取到CPU、優化資料流等措施,實作對于TCP協定棧的優化處理。新一代的I/OAT2利用 DCA(Direct Cache Access,直接進階緩存通路)技術,進一步降低頻繁存取記憶體對系統性能所造成的負面影響。I/OAT2通過晶片組支援QuickData技術,該技術 通過直接将網絡資料放入記憶體中無需處理器參與,進而加速了标準網絡資料的傳送過程。Intel在此基礎上增加了DCA和MSI-X等功能,以提升資料傳輸 和複制的效率。
支援IOAT2的網卡控制器不僅支援無狀态解除安裝,TCP配置設定&效驗和解除安裝,優化多隊列&資料流,分離頭部/有效負載等功能,還通過增加對于DCA、MSI-X、中斷快速響應、頭部分離/複制等功能的支援,提升IO效能。
可以看到DCA和MSI-X兩個功能是此次IOAT2所帶來的主要改進。DCA(Direct Cache Access,直接進階緩存通路)基本工作原理是使得CPU高速緩存中的資料可以被網絡控制器優先通路,一方面充分利用緩存中的資料,另外一個方面利用高 速緩存低延遲的特性,來避免CPU頻繁的通路記憶體,降低系統開銷。DCA有兩種基本的工作模式,當處理小型I/O任務的時候,甚至不需要晶片組中 QuickData引擎的參與,隻有當處理大型I/O任務的時候才需要。
MSI-X(Extended Message Signaled Interrupts,擴充消息信号中斷)是MSI(消息信号中斷)的增強版本,是PCIe 1.1規範中增加的新特性,可以将PCIe總線中的資料封包進行更靈活的分割,滿足不同應用的需求。在I/OAT2中結合了直接記憶體通路、選擇性中斷行為 的流量差別等功能,提供了更快的中斷速度。
I/OAT2還支援頭部分離/複制這一新特性。頭部分離是TCP/IP協定處理過程中一個必不可少的過程,I/OAT2将來自資料/有效負載 的TCP、IP頭部放入不同的記憶體緩沖中。頭部複制動作則是将頭部進行拷貝并放置于不同的緩沖中,然後将整個資料包放入另一個緩沖中。頭部複制可用于處理 更長的頭部。
在伺服器虛拟化應用中,由于多個VMs共享一個網口,會由于VMM軟體的開銷影響而導緻I/O性能損失非常的大。支援I/OAT2的平台會在平 台和網卡硬體上都進行相應的改進,可提供更高效的網絡資料傳輸,比如VM、VMM網絡協定棧處理效率均可受益,該技術還可以加速資料從網絡NIC硬體隊列 到虛拟NIC的移動。此外還利用了VMDq(NIC使用多硬體隊列給VMM軟交換機加速)來提升虛拟化應用的效能。
VMDq通過排序和分類封包來提升虛拟機應用中共享網卡的效率。如上圖所示,在發送資料的時候,實行輪叫發送隊列服 務,確定公平發送,防止出現線頭阻塞(Head-of-line blocking, HOL)現象。在接收資料的時候,VMDq部分将屬于不同VMs的封包分類,然後由VMM成組的發送到VM,進而減少VMM交換機代碼執行的次數,以獲得 較高的效率。
經過了1年多的推廣,I/OAT技術已經得到了業界廣泛的支援,比如MS Server 2003 SNP、Linux Kernel 2.6.18、SuSE Enterprise Linux Server 10、Redhat Enterprise Linux 5.0都已經支援I/OAT技術,VMWare也計劃在下半年推出的VMWare ESX Server 3.5中增加對這一功能的支援。
功能 | IOAT1(Bensley) | IOAT2(Stoakley/Caneland) | IOAT3(Next Gen Platform) |
Intel QuickData Tech(Data Movement engine)BW | 2GB/s | 2GB/s | 4GB/s |
DMA通道數量 | 4 | 4 | 8 |
LAN stateless offloads (Header/data split, Receive Side Scaling, TX/RX checksums, TCP segmentation) | 支援 | 支援 | 支援 |
Message Signaled Interrupts | MSI | MSI-X | MSI-X |
Direct Cache Access | 支援 | 支援 | |
Low Latency Interrupt | 支援 | 支援 | |
Optimized Header-Splitting / Replication | 支援 | 支援 | |
Multi-VM Direct Assignment of Data Movement Engine | 支援 | ||
Required LAN Si | IOAT1 | IOAT2 | IOAT3 |
Gilgal Dual GbE PHY | 支援 | ||
Zoar Dual GbE MAC/PHY | 支援 | 支援 | 支援 |
Kawela(Adoram) Dual GbE MAC/PHY | 支援 | 支援 | 支援 |
Oplin Dual 10 GbE MAC | 支援 | 支援 | 支援 |
Niantic(Hadar) Dual 10 GbE MAC | 支援 | 支援 | 支援 w/RSC |
從VT-x到VT-d,再配合I/OAT2,45nm伺服器平台提供了完善的虛拟化能力和IO能力,這些都可以實質性地提升最終産品的能力。
我們收到的浪潮英信NF290D是45nm伺服器平台的先行者之一,浪潮英信NF290D采用了2U規格設計,在擴 展度、價格、密度方面達到了很好的平衡。在浪潮290D的前面闆上,必須的開關、訓示燈之外,具備了6個熱插拔3.5"硬碟槽位置,可以插入SAS 3Gbps硬碟或者SATA 3Gbps硬碟。我們測試的配置安裝了4個Seagate Cheetah 15K.5 ST314655SS硬碟,可以提供強大的磁盤IO能力。
浪潮英信NF290D前面闆還提供了一個USB 2.0端口,以用于移動存儲等。
此次推出的浪潮英信NF290D雙路四核至強伺服器,基于全新的Intel 45nm High-K Harpertown處理器設計,全新的制程可以以較低的功耗的同時提供更強的性能,進而最終提升計算密度、降低成本。
2個USB接口、後置VGA接口、後置9針公序列槽、內建雙千兆網卡,這些為伺服器的前後兩方位維護提供了更多的選擇。浪潮290D闆位置之下是1+1的熱插拔備援電源,這一設計同樣切合伺服器關鍵應用持續與穩定的電力支援需求。
浪潮在NF290D的内部系統設計上,處處展現出優化風道、友善維護的理念。
在機箱的中央部分,是3個主風道風扇,它為整個機箱的散熱風道提供了最主要的動力。這些風扇的最右邊還預留了一個風扇的位置。
采用了SAS技術,是以儲存設備的布線也變得簡單了,風道也更為理想。
我們收到的配置上,浪潮NF290D配備的時ETASIS的雙電550W電源,1+1 備援配置,可以對2U的伺服器提供充足的動力。
留意處理器散熱風道:通過一個特别設計的金屬蓋,浪潮英信NF290D伺服器在2U箱體的中央部分建立了一個包括了雙路Xeon DP處理器、北橋、記憶體,以及PWM供電子產品在内的散熱通道,其動力由兩個強力的機箱風扇提供,是以CPU散熱器本身就可以去掉了風扇。
作為45nm伺服器平台的先行者,浪潮英信NF290D沒有采用最新的Intel 5400 Stoakley平台,而是采用了經濟的Intel 5000V晶片組,這可以加快推出市場的速度,降低成本,這也可以看出NF290D伺服器的定位:以合适的價格提供強大的計算能力。
和Intel 5000P相比,5000V晶片組在北橋的記憶體支援方面以及IO擴充能力方面有所不如:從4個FBD通道降低到2個,一方面降低了最大記憶體支援數量,一方面降低了記憶體帶寬,這部分地影響到了性能。
Intel Harptertown Xeon DP處理器
散熱管銅底散熱器
浪潮NF290D的CPU散熱器采用了熱管設計,在測試當中可以保持CPU在較低的溫度之下。這也和采用的45nm處理器制程相關:功耗、發熱量都降低了。
圖上方就是兩個采用了45nm High-K工藝的Intel Xeon DP E5440處理器了,主頻為2.83MHz,具備了2 X 6MB二級緩存,前端總線頻率達到了1333MHz,并且兩個Xeon DP具有獨立的前端總線,再配合增強的内部微架構和革命性的SSE4指令集,浪潮英信NF290D的性能值得期待。
在前面的圖檔中,同樣是LGA 771的處理器,正面上看65nm Clovertown和45nm Harptertown沒有什麼差別,背面就不同了,如上圖,背面電容的分布具有了一些差别,可以讓我們友善地區分:上者是新Harptertown,下 者是老Clovertown。
浪潮英信NF290D采用了簡化版本的Intel 5000V晶片組,隻提供了6條記憶體插槽。我們測試的配置為4條Ramaxel 1GB FBD-DIMM記憶體,規格為PC2-5300F-555。4GB的系統記憶體容量并不算多,浪潮英信NF290D最多可以擴充到16GB記憶體。
5000V晶片組的IO擴充能力也略不如5000P,不過在大部分的情況下,這不是什麼問題。
浪潮英信NF290D提供了兩個PCI Express插槽、兩個PCI-X插槽和一個PCI插槽,其中PCI Express插槽分為一條PCI-E x8和一條PCI-E x4,其中x8插槽由Intel 5000V提供,x4(以及PCI-X)由ES6321ESB南橋提供,我們認為浪潮英信NF290D的陣列卡插在PCI-E x8插槽上更好,因為這樣它可以避免和南橋的網卡等裝置搶奪南北橋之間的ESI帶寬,還可以與同樣連接配接在北橋上的記憶體、CPU作最直接、快速的交流。
ES6321ESB南橋提供了兩個PCI-E x4插槽和PCI-X 133MHz插槽,浪潮NF290D利用這些PCI-E x4界面實作了x8 SAS功能。實際上,浪潮NF290D在主機闆上就已經通過LSISAS1068晶片提供了x8 SAS界面,并且通過ZCR可以擴充到陣列功能,然而通常ZCR的性能通常遜于真正的陣列卡,是以浪潮NF290D仍然采用了一塊獨立的SAS RAID卡。
這8個SAS端口由闆載LSISAS1068晶片提供,當然,它們也能相容SATA裝置。6321ESB南橋還能提供額外的4個SATA 3Gbps接口。
獨立的LSI8308ELP SAS RAID陣列卡,可以提供RAID JBOD/0/1/0+1/5/6功能,具備了128MB的緩存,提供8個SAS端口,我們的SAS專題中對其進行過測試,我們對其性能表現很滿意。這塊卡采用了PCI-E x4界面。
通過Intel HY82563EB PHY晶片配合南橋提供了千兆網絡能力
內建XGI Volari網卡
測試平台簡介
在本次測試中,我們将采用45nm處理器的NF290D伺服器平台與雙路Xeon 5310平台進行對比。兩平台詳細參數對比如下:
兩平台同樣為雙路四核配置,新的NF290D平台在主機闆整合了Intel 5000V晶片組,很明顯感覺其朝着更加經濟實惠的方向發展,處理器依然采用Socket 771接口,而FSB總線帶寬已經更新到1333MHz,L2也擴充到6M,至于記憶體,則采用頻率更高的667MHz FBD,磁盤控制器則選配了8308E的SAS Raid卡。
我們在上述配置的兩伺服器平台上分别安裝了Microsoft Windows 2003 Enterprise Server R2 5.02.3790 (Service Pack 1),正确安裝了各個硬體的驅動程式,確定伺服器工作在最佳的狀态。
在網絡與系統優化方面,我們将兩平台采用同樣的系統設定,并同時取消了網絡負載均衡,以檢視其基礎性能表現。
相關參數功能介紹:
XDbit功能:Intel産品的記憶體保護功能,起到防止程式不正當運作的作用。關閉這項功能,在一些未能被系統正确識别的程式運作時,避免因報錯而影響系統程序。
EIST功能: Intel産品的處理器自動調頻與調壓功能,起到減少工作時耗電量與發熱量的作用。關閉此項功能,可以保障平台在進行大批量資料處理的時候,一直保持高速度運作。
C1 state: 當作業系統負載較小的情況下,會向處理器不斷發送指令,通過降低處理器頻率與電壓将處理器能耗降低,如果與EIST功能進行配合使用,能夠更好地控制系統空閑時間的能耗。關閉此項功能,可以讓平台的處理狀态時刻保持高速。
浪潮NF290D測試方法
由于本次的評測過程比較緊急,而為了盡快讓大家了解配備新架構MP處理器Xeon 7300的浪潮英信NF520D2性能,我們此次僅挑選了最重要的處理性能、記憶體緩存性能、資料庫網絡應用輔以基本測試環節進行。具體測試項目如下:
- SPECCPU2000 v1.2
SPEC是标準性能評估公司(Standard Performance Evaluation Corporation)的簡稱。SPEC是由計算機廠商、系統內建商、大學、研究機構、咨詢等多家公司組成的非營利性組織,這個組織的目标是建立、維護 一套用于評估計算機系統的标準。
SPEC CPU2000是SPEC組織推出的一套CPU子系統評估軟體,它包括CINT2000和CFP2000兩個子項目,前者用于測量和對比整數性能,而後者 則用于測量和對比浮點性能。計算系統中的處理器、記憶體和編譯器都會影響最終的測試性能,而I/O(磁盤)、網絡、作業系統和圖形子系統對于SPEC CPU2000的影響非常的小。
SPECfp測試過程中同時執行多個執行個體(instance),測量系統執行計算密集型浮點操作的能力,比如CAD/CAM、DCC以及科學計 算等方面應用可以參考這個結果。SPECint測試過程中同時執行多個執行個體(instances),然後測試系統同時執行多個計算密集型整數操作的能力, 可以很好的反映諸如資料庫伺服器、電子郵件伺服器和Web伺服器等基于整數應用的多處理器系統的性能。
我們在被測伺服器中安裝了Intel C++ 8.1 Compiler、Intel Fortran 8.1 Compiler這兩款SPEC CPU2000必需的編譯器,另外安裝了Microsoft Visual Studio 2003.net提供必要的庫檔案。按照SPEC的要求我們根據自己的情況編輯了新的Config檔案,可以滿足Base測試。然後我們根據被測系統實際 可同時處理的線程數量,設定使用者數量,分别運作SPEC base和SPEC rate base測試的結果(其中SPEC base代表系統執行某個任務的速度,而SPEC base rate測試代表系統可以同時處理任務的能力)。
- ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于測試系統特别是處理器在科學計算應用中的性能的軟體,MemBenchmark是其中針對處理器緩存、系統記憶體而設計的功能子產品,它可 以測試系統記憶體帶寬、L1 Cache延遲、L2 Cache延遲和系統記憶體延遲,另外還可以測試不同指令集的性能差異。
- SiSoftware.Sandra.SP1 v2007
SiSoftware Sandra是一款可運作在32bit和64bit Windows作業系統上的分析軟體,這款軟體可以對于系統進行友善、快捷的基準測試,還可以用于檢視系統的軟體、硬體等資訊。今年該軟體推出了2007 版,該版本新增了4項基準測試,包括Power Management Efficiency、Memory Latency、Physical Disks和CD-ROM and DVD這四個項目。另外,它還對于原有的幾個基準測試子產品進行更新,比如在Arithmetic benchmarks中增加了對SSE3 & SSE4 SSE4的支援,在Multi-Media benchmark中增加了對于SSE4的支援,另外還更新了File System benchmark和Removable Storage benchmark兩個子項目。對于新的硬體的支援當然也是該軟體每次更新的重要内容之一。SiSoftware Sandra所有的基準測試都針對SMP和SMT進行了優化,最高可支援32/64路平台,這也是我們選擇這款軟體的原因之一。
- IOMeter 2004.7.30
IOMeter是一款功能非常強大的IO測試軟體,它除了可以在本機運作測試本機的IO(磁盤)性能之外,還提供了模拟網絡應用的能力。在這次的測試中,我們僅僅讓它在本機運作測試伺服器的磁盤性能。為了全面測試被測伺服器的IO性能,我們分别選擇了不同的測試腳本。
- Max_throughput(read):檔案尺寸為64KB,100%讀取操作,随機率為0%,用于檢測磁盤系統的最大讀取吞吐量
- Max_IO(read):檔案尺寸為512B,100%讀取操作,随機率為0%,用于檢測磁盤系統的最大讀取操作IO處理能力
- Max_throughput(write):檔案尺寸為64KB,0%讀取操作,随機率為0%,用于檢測磁盤系統的最大寫入吞吐量
- Max_IO(write):檔案尺寸為512B,0%讀取操作,随機率為0%,用于檢測磁盤系統的最大寫入操作IO處理能力
- WebBench v5.0
WebBench是針對伺服器作為Web Server時的性能進行測試,我們在被測伺服器上安裝了IIS6.0元件,以提供測試所需的Web服務。在測試中我們開啟了網絡實驗室中的56台客戶 端,分别使用了WebBench 5.0内置的動态CGI以及靜态頁面腳本對伺服器進行了測試。
靜态測試是由用戶端讀取預先放置在伺服器Web Server下的Web頁面(wbtree),這項測試主要考察的是伺服器磁盤系統以及網絡連接配接性能。我們使用了實驗室中的56台用戶端,配合Static_mt.tst多線程靜态腳本測試向被測伺服器發送請求。
動态測試偏重于對伺服器CPU子系統的性能測試,它對于Web伺服器提供了足夠的負載。我們将一個C語言編寫的 CGI源檔案Simcigi.c編譯為Simcgi.exe,并将其作為動态測試中的CGI腳本。在測試過程中,每台安裝了WebBench用戶端軟體的 PC,會在300秒的時間内持續向伺服器發送CGI請求,而控制台會紀錄并彙總伺服器所響應CGI請求的資料。CGI測試的成績高低,主要取決于伺服器處 理器子系統性能的優劣。處理器子系統包括CPU、記憶體以及記憶體控制器,CPU頻率、緩存以及記憶體容量大小和記憶體帶寬,都會影響該項成績。
- NetBench v7.03
NetBench是針對檔案伺服器的性能測試軟體,影響NetBench 性能的主要是伺服器的磁盤子系統,伺服器磁盤控制器、條帶大小、讀寫緩存、硬碟類型、組建磁盤陣列模式、記憶體容量、網絡拓樸結構等都會對測試結果有明顯的 影響。我們在被測伺服器上設立了檔案伺服器,NetBench通過網絡實驗室中60個用戶端來模拟網絡中的PC向檔案伺服器所發出的檔案傳輸請求,檔案服 務器則将存儲在磁盤上的檔案資料發送給相應的用戶端。在測試過程中,用戶端會以每四台一組的步進依次增加并且向伺服器發送檔案傳輸請求,測試結束後控制台 收集資料并繪制出伺服器的資料傳輸變化曲線。
- Benchmarkfactory 4.6
大部分的伺服器應用都同資料庫有着密切的聯系,是以我們今年開始着手在在伺服器測試中加入對于資料庫性能的測試。我們選擇了Benchmark Factory 4.6軟體和Microsoft SQL2000 SP4來測試不同的硬體平台在資料庫應用中的表現。
我們選擇了BF内置的标準測試腳本AS3AP,這項測試可用于對于ANSI結構化查詢語言(SQL)關系型資料庫進行測試,它可用于測試DBMS(單使用者微機資料庫管理系統),也可用于測試高性能并行或者分布式資料庫。
我們分别在兩平台上運作SPEC base測試,以測試兩平台處理任務的速度。
SPEC base測試包括浮點(fp)與整數運算(int)兩部分。
浮點性能測試中包含了14個程式,分别代表量子色動力學(168)、淺水模型(171)、3D勢場多栅格解算器 (172)、抛物/橢圓偏微分方程(173)、3D圖形庫(177)、流體動力學(178)、神經元網絡(179)、有限元模拟:地震模型(183)、面 部識别(187)、計算化學(188)、數論(189)、有限元模拟:碰撞(191)、粒子加速器(200)、污染物擴散(301)。
從上表中我們可以看到,浪潮NF290D相對雙路Xeon 5310平台總體成績出現了67%的增長,而其中更有2項應用測試提升将近200%,3項應用測試超過200%,其中神經元網絡測試項目提升幅度更是達到684%,可謂強悍。
整數性能測試中包括11個C程式和1個C++程式(252.eon),它們分别代表資料壓縮(164、256)、電 路布線(175)、C編譯器(176)、 最低成本網絡流解算機(181)、象棋模拟程式(186)、自然語言處理(197)、光線追蹤(252)、Perl應用(253)、計算機群論 (254)、面向對象的資料庫應用(255)等應用。
在整數運算中,浪潮NF290D全面超越雙路Xeon 5310平台。值得注意的是,在整數運算性能的12個針對不同方面的應用測試項目中,除了計算機群論外,其他11項目應用測試項目均出現超過100%的提升,而總體性能也達到174%的高位提升。
在記憶體緩存環節,我們采用Sisoftware.Sandra.Enterprise.SP1 V2007對系統進行測試。
從上表展示的結果可以看到,相對配置65nm雙路Xeon 5310的伺服器平台,配置45nm雙路處理器的浪潮NF290D在記憶體帶寬和緩存環節均有大幅提升,而在Cache and Memory環節的測試中,2KB-16MB資料塊的測試結果都顯示浪潮NF290D平台相對雙路Xeon 5310有超過100%的提升,但事實上,45nm penryn處理器隻對原Xeon 5310所采用的Core架構進行了部分優化,L2緩存也僅僅由4M提升到6M,其與NF290D所配置的667MHz的記憶體頻率結合,相對雙路Xeon 5310也不應該出現普遍而如此巨大的提升。之是以出現上述情況,應該與軟體的運算機制有關。
負載峰值提升58%,NF290D展現極至Web性能
在Web性能的測試環節,我們在被測伺服器上安裝了IIS6.0元件,以提供測試所需的Web服務。在測試中我們開 啟了網絡實驗室中的60台用戶端,分别使用了WebBench 5.0内置的動态CGI以及靜态頁面腳本對伺服器進行了測試。我們針對兩平台進行了動态項目的測試:
動态測試偏重于對伺服器CPU子系統的性能測試,它對于Web伺服器提供了足夠的負載。我們将一個C語言編寫的 CGI源檔案Simcigi.c編譯為Simcgi.exe,并将其作為動态測試中的CGI腳本。在測試過程中,每台安裝了WebBench用戶端軟體的 PC,會在300秒的時間内持續向伺服器發送CGI請求,而控制台會紀錄并彙總伺服器所響應CGI請求的資料。CGI測試的成績高低,主要取決于伺服器處 理器子系統性能的優劣。處理器子系統包括CPU、記憶體以及記憶體控制器,CPU頻率、緩存以及記憶體容量大小和記憶體帶寬,都會影響該項成績。
從上表中我們了解到,浪潮NF290D相對雙路Xeon 5310平台網絡負載的情況有明顯的提升:
1)浪潮NF290D網絡負載的峰值為10714 Request/s,雙路Xeon 5310網絡負載的峰值為6795 Request/s,浪潮NF290D網絡負載的峰值相對提升58%;
2)綜合接入不同終端數的情況,浪潮NF290D網絡負載均值為7481 Request/s,雙路Xeon 5310網絡負載均值為5019 Request/s,浪潮NF290D網絡負載的均值相對提升49%。
我們可以通過以下圖形更直覺地看到NF290D網絡負載提升的情況:
平均提升57%,NF290D資料庫性能高漲
我們在被測伺服器上安裝了Microsoft SQL 2000 SP4,按照測試要求建立了資料庫。BF在測試之前會在資料庫中生成9個表,其中包括4個500萬行的表格,每行包括100位元組的資料,是以每個表格容量 大約是476MB,整個資料庫容量為1.86GB。我們用60個用戶端模拟1600個使用者,并且以8個一組依次增加,在這個資料庫中進行查詢、添加、删 除、修改等操作。在測試期間,資料的吞吐量很小,是以磁盤吞吐量和網絡吞吐量都不會成為瓶頸。
上圖直覺地告訴我們,兩測試平台的資料庫性能差異非常明顯:浪潮NF290D的資料庫性能較雙路Xeon 5310的資料庫性能有爆發式的增長。
從背景精确的測試資料來看兩平台具體數值差異:當接入終端數為800個時,浪潮NF290D伺服器平台達到處理資料 庫請求峰值86499 TPS,而雙路Xeon 5310伺服器平台處理資料庫請求峰值僅為74151 TPS,浪潮NF290D處理資料庫請求的峰值相對雙路Xeon 5310平台提升達17%,而平均值的提升更是達到57%。
NF290D突出的功耗表現
浪潮NF290D伺服器整體功耗
我們利用UNI-T UT71E智能數字萬用表和相配套的軟體對于對于被測伺服器在幾種不同的狀态下的功耗進行了監測,主要包括如下項目:
- P1:連接配接電源但不開機狀态
- P2:系統啟動完畢,5分鐘内無動作,但不休眠
- P3:系統啟動完畢,處理器滿載、磁盤以最大吞吐量工作
從上圖我們可以直覺地了解到,進行對比評測的浪潮NF290D與雙路Xeon 5310伺服器平台,兩者功耗在滿載時的功率是相同的,而當伺服器處于空閑時段的時候,浪潮NF290D整系統所消耗的功耗要更低。
事實上,兩者在硬體配置上是不同的:浪潮NF290D配備了4塊萬轉SAS磁盤,而雙路Xeon 5310僅配備了一塊磁盤,但是另外一方面,雙路Xeon 5310平台相對浪潮NF290D又多出4條FBD記憶體。此消彼長下,兩平台在硬體配置上對功率的影響也是有限,大緻可以判斷兩者在滿載狀況下的功率相 當。
IT168評測中心觀點
【IT168評測中心】2007年11月12日,英特爾于美國一口氣釋出了16款45nm處理器産品,而接着在本周五,英特爾也将在中國大區推出其45nm處理器新品,NF290D于此盛時被作為浪潮第一款45nm機型推出,可見浪潮對其市場倚重。
從我們本次的評測結果了解到,無論是單機處理還是主流的網絡應用,浪潮NF290D都有突出的性能提升,同時在功耗方面,配置Penryn處理器的NF290D相對65nm雙路Xeon 5310伺服器平台還有明顯的降低。