雲栖号資訊:【 點選檢視更多行業資訊】
在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

我們現在進入了一個時代,那就是IT行業的計算引擎将需要比以往任何時候都更需要更低的價格,更好的性能以及更好的散熱特性。這将需要一種在更大範圍的工作負載和裝置上進行協同設計系統(co-designing systems )的進化方法。
讓我們從顯而易見的地方開始。越來越清楚的是,盡管世界上所有軟體工程師都可能使您相信,但通用計算的美好時代是一個簡單的X86指令集和作業系統核心是他們唯一需要的畫布。繪制他們的代碼。
X86計算生态系統的興起使我們在分布式計算和各種運作時中實作了出色的寒武紀爆炸式增長,以執行可跨X86變體以及Arm和Power等其他體系結構移植的進階代碼。資料存儲、資料庫,應用程式架構,虛拟機和運作時的數量驚人,多樣化且美觀。如果确實發生了寒武紀大爆炸,那就是分布式計算模型和計算硬體的多樣性(過去十年中一直在增長)确實是通用X86引擎的功能,後者可以完成所有工作,或者有時很多,雖然他們不是支援各種工作負載的最佳方法。
當工作負載,架構和硬體都對齊時,這是一件很美的事情。2012年就是這種情況,大約在HPC開始過渡到将代碼的并行元件解除安裝到GPU加速器的五年之後,機器學習算法最終找到了足夠的資料并具有足夠的并行處理能力以采用數學上早在1980年代就聽起來不錯的算法,并将它們用于圖像識别,語音識别,語音到文本翻譯,視訊識别和其他工作負載的測試。而且,lo和hehold,他們工作了。
現在AI的機器學習版本已經徹底改變了我們思考軟體編寫以及管理業務和個人生活許多方面的方式。HPC和AI統一對供應商和使用者而言都非常友善,因為可以執行一組工作負載的相同系統也可以完成另一組工作,在某些情況下,它們可以串行或并行地交織以建立AI增強的HPC。但是,正如我們之前指出的那樣,HPC和AI之間這種諧波收斂(harmonic convergence)的便利并不一定要保持,而隻有在軟體和經濟朝着相同的方向推動時才如此。
在2020年的這一點上,很難說它是否會成立,但是很明顯的是,橡樹嶺國家實驗室的1.5 exaflops的“Frontier” 系統将于2021年到期,勞倫斯·利弗莫爾國家實驗室的2 exaflops的“ El Capitan”系統定于2022年問世。相關資料顯示,這個系統混合了CPU-GPU,兩者之間具有緊密耦合的計算和一緻的記憶體。他們指出,将AMD Epyc CPU和Radeon Instinct GPU加速器混合使用是正确的選擇,這對新貴X86和GPU晶片制造商來說是福音。話雖如此,勞倫斯·利弗莫爾(Lawrence Livermore)絕對清楚,El Capitan主要是一台HPC機器,具有一些相對較小的AI職責。
現代的單片CPU或使用單個插槽中的小晶片(chiplets)之間的互連建立虛拟CPU的插槽,确實是一個奇迹。當我們看這些晶片中的一種時,我們正在看的是僅僅幾十年前的超級計算機,它們将需要如此多的單個晶片來建構,以至于讓人難以置信。讓我們花點時間看一下這些藝術品,從英特爾的28核“ Skylake” Xeon SP 裸片開始:
甚至西摩·克雷(Seymour Cray)都會拿出放大鏡,花幾個小時觀察這種美麗。克雷(Cray)将花費我們預期的等量時間,研究IBM的24核“ Nimbus” Power9處理器:
我們還沒有Ampere的“ Quicksilver” Altra或Marvell的“ Triton” ThunderX3 這些Arm伺服器CPU的裸片圖,但是就元件數量而言,毫無疑問,它們将同樣複雜。我們也沒有構成AMD“羅馬” Epyc 7002系列的九中晶片的集合,但是我們稍後将在此檢視一些Rome原理圖。
如果您細心看,你會發現現代伺服器CPU就像二十年前的大型iron NUMA的外觀,隻是所有元件都縮減為一個裸片,他不僅包含CPU(今天稱為核心),還包括L3緩存,PCI- Express和以太網控制器以及用于加密、資料壓縮、記憶體壓縮、矢量數學和十進制數學的各種加速器(IBM Power和System z都有)。如果您已經像我們一樣從事了很長時間的行業,那麼從大型NUMA伺服器縮減到單個插槽的縮影确實是一個了不起的旅程。
AMD Rome會是你的目标嗎?
有幾件事很清楚。一方面,AMD在Rome方面的成功提供了一種設計良好的小晶片體系結構,即使從單片晶片遷移到小晶片設計時,即使對延遲産生影響,也可以提供性能和成本效益方面的優勢。在羅馬走一走,看看:
Rome使用的Zen2核心的所有功能都優于Naples首次推出的Zen1核心,并且通過建立圍繞單個I / O和記憶體控制器中樞的專用核心子產品,大大改善了小晶片的互連體系結構。AMD這樣做的所有意圖和目的都是在單個14納米管芯上混合了I / O和存儲器控制器的NUMA控制器,該管芯由Globalfoundries制造,具有83.4億個半導體。
據了解,核心小晶片在單個裸片上具有兩個四核核心複合體,其中八個裸片(骰子?)構成了總共64個核心,這些I / O核心都包裹在其中。每個核心小晶片都有39億個半導體,這些半導體是由台積電在其7納米工藝中蝕刻的,總共有322億個半導體用于計算。
全部加進去 Rome Epyc 7002小晶片工廠總共擁有395.4億個半導體,這肯定會超出任何代工廠的标線限制,而且要獲得如此大晶片的良率也将變得更加瘋狂。封裝小晶片的麻煩,成本和風險不如制造标線片破壞單片伺服器晶片的麻煩成本和風險大,至少對于擁有附屬PC晶片業務的AMD而言,無論如何它都需要制造更小的晶片。
所有伺服器CPU制造商遲早都将使用小晶片,但我們希望更加激進。我們希望将CPU分解為核心串行,整數處理要點,并撕裂所有已放置在晶片上的矢量引擎和加速器(這些整數引擎現在或在其旁邊或在環形或網狀互連中)。它們位于其他晶片中,它們屬于一個世界,該世界将具有一緻的系統間(CXL)和系統内(Gen-Z)一緻協定集,以将計算元素捆綁在一起,以便它們可以以非對稱方式共享記憶體或存儲或symmetric fashion。
如果GPU加速器可以在64位或32位浮點處理上提供最佳的每瓦性能和每美元性能,那就可以了。将向量單元從CPU中取出,然後有兩種選擇:使晶片更小,更便宜,添加更多核心或提高時鐘頻率以建立性能更高或成本更低的串行整數計算引擎。
如果客戶需要混合精度或更高精度的資料流引擎以及僅少量串行資料,主機計算,則可以将精簡的CPU與FPGA緊密連接配接。并且假設至少要進行一些伺服器虛拟化,尤其是在雲和企業中,則應盡可能從伺服器CPU上解除安裝這項工作。這意味着我們絕對假設每台伺服器中都将有一個SmartNIC,可以像基闆管理控制器(尚未發生的融合),伺服器虛拟化或容器平台主機,以及可以運作虛拟網絡和虛拟存儲的地方一樣工作,就像Amazon Web Services和Microsoft Azure一樣。加密,解密,資料壓縮和其他功能也可以從主機CPU中提取出來,并放入SmartNIC中,它們可以歸為SmartNIC,并且可以用更少的錢完成。
最終,我們要優化專用晶片上的所有晶片性能,使其具有各種尺寸和容量,并具有互連功能,進而允許系統設計師以比超規模化者和雲建構者所擁有的以太網更細粒度,更低的層次來混合它們。
試圖做到這一點。這可能意味着socket的協定标準化,這可能将引緻一些晶片制造商的抵制。但是有了這樣的标準,系統架構師和晶片(實際上是socket)制造商可以擁有更廣泛的計算選項闆,用它們來繪制他們的許多工作負載,無論是在socket還是跨系統,或是它們的某種混合。
誠然,仍然會有那些想要通用伺服器CPU的人,瑞士軍刀可以完成所有工作。但是,我們談論的是擁有一把劍,一把非常好的剪刀和一把無用的手鋸,而是一系列微型版本的集合,這些版本最終并沒有看上去有用。
【雲栖号線上課堂】每天都有産品技術專家分享!
課程位址:
https://yqh.aliyun.com/zhibo立即加入社群,與專家面對面,及時了解課程最新動态!
【雲栖号線上課堂 社群】
https://c.tb.cn/F3.Z8gvnK
原文釋出時間:2020-03-31
本文作者:Timothy Prickett Morgan
本文來自:“
人工智能學家 微信公衆号”,了解相關資訊可以關注“
人工智能學家”