天天看點

科工力量:性能接近國際巨頭後,龍芯将迎來什麼?

作者:觀察者網

【文/科工力量專欄作者 鐵流】

日前,龍芯釋出了用于伺服器市場的的3D5000系列晶片,引發關注。

3D5000與3C5000屬于同一代CPU,是采用Chiplet技術把兩片3C5000晶片互聯和封裝在一起,進而獲得一片32核CPU,這種方式也被稱為“膠水32核”。就性能而言,龍芯3D5000的IPC接近AMD Zen2的水準,全晶片性能與同主頻下的32核AMD Zen2架構CPU接近,對于大部分應用已經是夠用了。

在2023年,性能更強的龍芯6000系列CPU将要問世,龍芯在IPC上與英特爾、AMD的差距将會進一步縮小,真正阻礙龍芯在市場上推廣的要素将不再是CPU性能,而是軟體生态。

龍芯5000系列是自主CPU裡程碑

2019年,龍芯3A4000四核處理器亮相。龍芯3A4000是繼3A3000之後的新一代處理器。3A4000既更新了新核心GS464V,IPC大幅提升;又通過在原有28nm工藝上深入磨合優化,改進電路和實體設計方法,在制造技術與3A3000相同的情況下,将性能提升了一倍。就3A4000的IPC而言,已經從3A3000的7/G達到了9.8/G,AMD的Zen大緻也就在10/G水準,龍芯3A4000的GS464V是一款可以與第一代Zen匹敵的核心。

3A5000的核心是基于GS464V進行小改,IPC為10.6/G,采用12nm工藝,主頻為2.2G至2.5G,後期流片的有2.7G主頻版本,SPEC06定點成績超過26(GCC,@2.5Ghz),這對于自主CPU而言已經是非常不錯了,即便和引進的CPU相比,其定點和浮點性能僅次于海光,超過其他引進的X86和ARM CPU。

龍芯3A5000與龍芯3C5000、3D5000屬于同一代CPU,3C5000采用LoongArch指令集,16核心單晶片unixbench分值9500以上,雙精度計算能力達560GFlops,16核處理器峰值性能與典型ARM 64核處理器的峰值性能相當,并支援最高16路互連,搭配新一代龍芯7A2000橋片,PCIe吞吐帶寬比上一代提升400%以上。就SPEC2006測試來看,單核定點浮點Base分均大于10/G,單晶片分值超過200。可滿足通用計算、大型資料中心、雲計算中心的計算需求。該處理器通過晶片級安全機制可為等保2.0、可信計算、國密算法替代、網絡安全漏洞防護等提供CPU級内生支援。

3C5000最大特點是單核性能強,特别是unixbench這種看重單核和記憶體性能,多核加速比很低的測試,龍芯隻用16核就能跑到9500,某ARM CPU即便有64核也跑不到這個成績。從公開的資料來看,3C5000的性能在信創市場足夠用了,而且16核的核心是使其部署比較靈活。

龍芯3D5000則是把兩個3C5000封裝到一起的膠水32核晶片,內建了64MB的L3 Cache,支援最多8個DDR4-3200 DRAM,可以通過HyperTransport接口建構至多四路處理器,是以單機可以支援多達128核。在性能方面,龍芯3D5000單路和雙路伺服器的SPEC CPU2006 Base實測可以超過400分和800分,預計四路伺服器的分值可以達到1600分。可以說,龍芯3D5000主要針對一些對性能有更高要求的場景,隻要軟體生态跟得上,完全可以替換掉英特爾至強CPU。

科工力量:性能接近國際巨頭後,龍芯将迎來什麼?

龍芯6000性能将再次飛躍

相對于一些技術引進CPU在引進海外技術後CPU IPC增長緩慢,性能提高基本依靠購買更好的EDA工具和買台積電更好的工藝。龍芯一直緻力于提升CPU微結構設計水準來提升CPU的性能,沒有盲目去堆核心數量。這種穩紮穩打的做法使龍芯在過去10年中IPC提升了3-4倍,在桌面CPU上成效立竿見影。

CPU的IPC在過去10年中提升了3-4倍,這使龍芯可以在制造技術上落後技術引進的某ARM CPU一代的情況下,依然可以依靠CPU微結構設計水準做到性能持平或略優于技術引進的某ARM CPU。當龍芯與引進的某ARM CPU采用相同工藝時,龍芯可以憑借其IPC上的優勢在性能上領先某ARM CPU。

科工力量:性能接近國際巨頭後,龍芯将迎來什麼?

龍芯3A5000

3A6000和3A5000采用相同制造技術,龍芯依靠其設計能力把CPU性能大幅提升,主要是拉大架構,比如把4發射改成6發射等等。從此前公布的仿真成績看,定點相對于3A5000提升30%,浮點相對于3A5000提升60%,這種提升是非常駭人的——如果仿真成績與最終成績相當,那麼,3A6000 SPEC06單核定點Base分大于13/G,浮點Base分大于16/G,基本達到AMD Zen2水準。如果3A5000為2.5G至2.8G,那麼,3A6000的 SPEC06單核定點Base分大于35,浮點将大于45。

從公開資訊看,在使用相同工藝的情況下,3A6000性能比3A5000提升40%—60%,晶片面積縮小20%,12nm的3A6000對标7nm的AMD Zen2。做最保守估算,3A6000 SPEC06單核定點Base分為32分(@2.5G)至35分(@2.8G)。這個性能對于信創和日常使用而言都已經明顯過剩了。

必須說明的是,仿真往往是不準确的,有的公司會高估,有的公司會低估,從龍芯這幾年釋出的資訊看,龍芯是偏保守的,實測成績隻會比仿真成績好,以最近流片回來的2K2000來看,實測成績比龍芯仿真成績高了20%至30%,這大大超乎龍芯的預期。龍芯2k2000的LA364性能基本追平ARM A76,充分展示了自主路線的發展潛力和發展活力。

3C6000是16核伺服器晶片,核心是LA664,與3A6000相同。3D6000則是兩片3C6000封裝在一起構成32核伺服器CPU,可以匹敵搭載Zen2核心的AMD EPIC。隻要軟體能跟上,商業市場已經沒有性能短闆了。

龍芯下一代7000系列CPU,進一步提升CPU核性能,IPC瞄準Zen3和12代酷睿,計劃采用7nm工藝,SPEC06定點Base最保守估算是40分,屆時,會有24-32核的3D7000(7nm)和48-64核3E7000(兩片封裝)。

Chiplet有利有弊 不宜神化

有文章認為:由于地緣政治的影響,中國的半導體行業受到了種種限制,尤其是開發自主知識産權的關鍵晶片(如國産CPU,或者之後有可能受到影響的其他高性能計算晶片)的公司難以使用最先進的半導體工藝節點。

另一方面,中國的半導體fab同樣由于受到地緣政治的影響,難以快速追趕全球最先進的工藝節點,而目前隻能主要生産成熟工藝節點(如28nm),或者是介于成熟工藝和先進工藝之間的工藝節點(例如SMIC今年剛開始大規模量産14nm,未來幾年可望做到10nm以下)。即使是介于成熟工藝和先進工藝之間的工藝節點,也會存在良率較低等問題,需要時間來解決。

在這樣的情況下,國産自主知識産權晶片在受到地緣政治影響下隻能使用較落後的工藝節點,那麼使用Chiplet這樣的進階封裝技術就成為了突破工藝限制,或者說至少減少工藝對于晶片影響的一種重要技術。

科工力量:性能接近國際巨頭後,龍芯将迎來什麼?

鐵流認為,以上觀點總體是沒問題的,但不宜将Chiplet神化,畢竟封裝也是存在成本和良率問題,關鍵還是要看需求和場景。

當下,龍芯的最大短闆是軟體生态,其次是制造技術。就工藝而言,一方面是龍芯錢少,不可能和蘋果、高通這些巨無霸去搶台積電最尖端工藝,何況當下台積電尖端工藝還存在政治風險。正是是以,龍芯在制造技術的選擇上往往是偏保守,基本與境内晶圓廠的最佳制造技術同步,而彌補工藝差距的方式就是采用Chiplet技術。Chiplet是一種封裝技術,在制造技術與台積電有差距的情況下,可以通過使用先進封裝技術來彌補不足。

Chiplet技術并非是橫空出世的新技術,過去,AMD的64核和128核就是将8核的晶片和IO橋片封裝在一起的,這其實就是運用Chiplet建構多核和SoC主流的技術。Chiplet最大的優勢是降低成本和提升晶片內建度,可以使12nm晶片在內建度上媲美7nm晶片。由于片内互聯效率大幅高于片外互聯,将原來的闆載晶片內建進來以後,可以大幅提升互聯速度。此外,Chiplet還可以實作不同制造技術晶片的“混搭”,比如關鍵子產品采用14nm工藝,次要子產品采用28nm工藝,然後封裝到一起,這種SoC的性能和真正的14nm晶片相差無幾,但成本将低于14nm晶片,在成本效益方面會更有優勢。

目前,龍芯的技術還屬于2D水準,其實并不算多強,現在主流已經開始向2.5D和3D發展。龍芯3D5000之是以沒上2.5D,主要是因為就目前龍芯的互聯速度,2D版本就足夠了,後續接口到16Gbps了就會采用2.5D。

必須說明的是,不宜把Chiplet神化,因為封裝也有成本的,還有良率的問題,也不是封得越多越好。關鍵還是看需求,Chiplet對伺服器晶片有利,普通晶片盲目封裝沒太多好處。

展望未來

就性能而言,3A5000應對日常使用和機關辦公已經是性能過剩了,3A6000則是進一步性能過剩,7000系列CPU則能進入商業市場競争。對于龍芯而言,性能已經不是最大短闆,軟體生态和産業生态才是短闆。

對此,龍芯措施是兩手抓,一方面用二進制翻譯相容X86生态,另一方面推出自主程式設計架構。

以LATX來說,目前已經可以運作大量X86/Windows應用,預計還需要一年時間完善。以列印機來說,現在97%、98%以上的列印機龍芯不用遷移,可以直接用,這在X86和ARM上都沒有做到,凡是windows有的驅動龍芯都能跑。還有少量的2%、3%的問題,将逐漸解決,也就是說在X86和ARM平台上肯定很多列印機認不了,但在龍芯的平台上,可以保證100%的列印機都能識别。

自主CPU和作業系統的整機産品之是以需要無休止的遷移适配,主要是因為這些系統是不在自主平台上寫的,現有的應用都是基于别人的程式設計架構編出來的,自主程式設計架構是自主操作的重要特征,目前國産作業系統都不是真正意義上的自主作業系統,隻是開源作業系統的自主發行版,APP開發者使用的自主程式設計架構進行程式設計才能徹底解決無休止的适配問題,是以龍芯在明年争取推出自主程式設計架構。未來就像手機APP有蘋果版和安卓版,未來電腦的系統有龍芯版和windows版,這樣龍芯就有自己的生态了。

這個過程會非常漫長,也許5年,也許8年。軟體生态建設就是一場持久戰,隻要堅持不懈,就能如同八年抗戰趕走日本鬼子那樣,建構成龍芯生态。

本文系觀察者網獨家稿件,文章内容純屬作者個人觀點,不代表平台觀點,未經授權,不得轉載,否則将追究法律責任。關注觀察者網微信guanchacn,每日閱讀趣味文章。