天天看點

解讀 | 企業伺服器信創技術路線(ARM、x86、龍芯)如何選型?

作者:我就是餓魚

以下文章來源于twt企業IT社群 ,作者twt社群

信創伺服器和商業伺服器的故障率對比情況?ARM、x86、龍芯現在都各有優缺點,從未來5年内看,哪個平台更有優勢?國産IT整體适配性問題,如遇到各廠商互相推诿,如何有力有效協調推進解決問題?國産CPU替代的成本問題?單從技術層面來看,不同應用場景下企業伺服器CPU的信創選型對比?

解讀 | 企業伺服器信創技術路線(ARM、x86、龍芯)如何選型?

【前言】

在Intel、AMD等基于X86指令架構的國外CPU廠商産品幾乎統治市場的同時,我們作為世界最重要計算機市場和引領全球數字化變革的國家的相關行業不斷呼喚着基于自己設計生産CPU——“中國芯”,自2018年大陸剛剛踩下加速油門的CPU産業及重點企業開始受到西方無情打壓和裁制,要将其“扼殺”在搖籃中之的同時,更吸引到了億萬國人的目光,國家、行業,科技界圍繞這一“卡脖子”領域吹起了“補短闆”的号聲。華為、海光、飛騰、兆芯、龍芯、申威等國内較有實力的廠商通過各種途徑和方式推出各型不同指令集和架構的通用CPU産品,并裝備在各家國産伺服器廠商的産品中,表現出産品疊代速度快,技術架構差異大,廠商側重場景各有不同的發展特點。

作為目前“國芯”的典型廠商及其技術路線,主要有三個方向 :

一、采用主流X86指令集的海光、兆芯,他們通過接受主流廠商技術注入的方式獲得有限專利許可,進而推出了能夠基本相容現有應用代碼運作的産品,具備天然軟體生态優勢,并且部分産品表現出了相對良好的單核性能;但由于其專利授權為國外廠商2016的技術,難以獲得最新技術授權,隻能走增加實體CPU核心數量的技術發展路徑。

二、采用主流ARM指令集的華為鲲鵬、飛騰,其技術授權源于英國ARM公司的商業專利授權,通過購買相應IP授權後設計出自有産品,由于目前大多數手機應用都基于該架構指令集開發,是以相應産品也擁有相對良好的軟體生态和應用代碼相容性,具備核心數量多和高能耗比的特點;但國内廠商也同樣受困于專利授權的問題。(最新消息:昨日,中國電子與華為宣布合并鲲鵬生态和PKS生态,共同打造同時支援鲲鵬和飛騰處理器的 “鵬騰”生态)

三、采用自主、開源指令集的廠商,這其中的代表是采用完全自主CPU指令集LoongArch的國芯鼻祖“龍芯”、申威sw64 自主指令集,以及采用開源指令集RISC-V聯盟的國内廠商(如:中科院、阿裡、騰訊),這些新廠商産品進步速度很快,其中龍芯團隊基于多年的堅苦深耕,最新流片産品已達到接近2021年Intel主流産品的單核和綜合性能,而RISC-V聯盟廠商因為參與廠商衆多而發展速度喜人;但這兩者都因軟體生态不足,編譯代碼困難問題,難以短期内獲得衆多應用開發者的青睐。

作為企業數字化轉核心動力的應用開發者們,所關心的問題便在于代碼開發生态(甭管快慢能跑起來,出了問題能找支援),而對于測試和運維人員的關注點則在于性能(單核、多核)和穩定性,X86架構經曆過充分時間打磨,可謂“獨孤求敗、傲視武林”,ARM雖然相對年輕,但也憑借移動終端領域的積累而獲有衆多開發人員的傭促,其他技術廠商則還需要邁過很多時間和技術的積累考驗。

最後,面對國芯信創大潮,企業IT選型架構師及IT專家們在信創技術路線中應該如何應對抉擇?社群之前圍繞企業伺服器信創技術路線(ARM、x86、龍芯)選型中關注的一些核心問題組織進行交流,活動中有有很多值得參考的觀點分享,在此文中進行了總結梳理,希望給同業帶來幫助。

*以下問題和觀點分享均來自社群會員,不代表社群傾向性;本文如涉及産品技術參數等請以官方釋出為準

1、信創伺服器和商業伺服器的故障率對比情況?

【問題描述】有沒有統計過,信創伺服器,相比現有商業晶片伺服器,總體故障率比較怎麼樣?

@summit 某城商銀行 架構管理崗:

從我們使用的伺服器情況大概說一下,僅作為參照。XC 伺服器主要是浪潮(飛騰 S2500 )、長城(飛騰 S2500 )、紫光恒越(海光 7280 )、百信恒山(鲲鵬 920 ),近一年的使用情況來說紫光恒越(海光 7280 )和百信恒山(鲲鵬 920 )在資源使用率達到 90% 以上,未出過問題;浪潮(飛騰 S2500 )、長城(飛騰 S2500 )在資源使用率達到 70%-80% 左右就出現問題,可能跟相關産品的适配不相容有關聯。從成本效益考慮,建議此類伺服器主要應用在開發測試環境或者非關鍵應用的生産環境。

@朱向東 中原銀行 技術支援:

信創伺服器和商業伺服器的來對比的話,因為伺服器内部都是電子元器件,電子元器件都有故障和老化的現象,無論是信創伺服器還是商業伺服器,裝置在其生命周期内基本上都有裝置故障現象發生的,一般情況下分三個階段 :

1)初期故障期,就是新采購的伺服器在上架安裝投産前後,由于裝置設計、物料制造不良,物料保管不善、運輸颠簸、接口松動、操作不當等而造成的裝置故障,比如裝置初次加電就發現某些部件出現故障,這種故障相對來說比較少見。

2)偶發故障期,就是裝置投産後,且裝置的零部件未達到使用壽命,但一部分零件出現故障的情況,這種故障是不可預測的,若伺服器裝置長期處于高負載運作狀态可能硬碟故障率會高一些,一般是高IO連續運作一年多以上,硬碟故障率會有所升高。

3)磨損故障期,就是裝置投産三到五年後裝置零件磨損過度,造成故障率上升,如果加強裝置維修,及時更換即将到達壽命的零部件,則可能會降低一些故障率,但維修費也會過高,此時則應考慮更新裝置了。

針對總體故障率比較的話,不同廠商的伺服器産品其裝置故障率還是有一些特點的,當然結合使用者對伺服器使用場景不同其故障率特點也不同,需要使用者積累一些運維資料才能分析出來。

@Yufu338 平安科技 資訊技術經理:

故障率相當,但因為信創伺服器較少,是以資料僅供參考;信創伺服器最大的問題不是故障率,而是出現故障後的故障修複能力比較弱,很多故障都無法做根因分析,而且因為美國制裁的原因,鲲鵬跟海光平台的伺服器無法得到國外關鍵部件廠商的技術支援,有些故障根本無法解決。

@actor168 中國聯通軟體研究院 研發工程師:

從親身體驗來看,其實都差不多,伺服器故障是多方面的:記憶體條壞掉、磁盤壞、網卡壞、莫名當機、CPU壞,目前來看,這些硬體制作工藝都一緻,隻是設計上有所不同,故障率基本一緻。

2、ARM、x86、龍芯、RISC-V現在都各有優缺點,從未來5年内看,哪個平台更有優勢?

【問題描述】按照文章介紹X86指令集專利授權為國外廠商2016的技術,難以獲得最新技術授權;ARM指令集已經明确拒絕向大陸企業出售最新高性能伺服器的IP授權;RISC-V軟體生态不足,編譯代碼困難,各有各的優缺點。從未來看都面臨比較大的卡脖子的情況。如果從短期考慮,例如5年内,哪個平台目前更具有優勢呢?

@kingdonwang 人民銀行清算中心 系統工程師:

ARM的優勢在功耗比,應用主要在移動網際網路,同時向新興後端伺服器業務領域有一定滲透(歸功于網際網路廠商); X86的優勢在于性能和完善的生态,在傳統PC特别是後端伺服器領域是獨孤求敗的;龍芯的優勢則在于技術和供應鍊的自主可控,另外龍芯可以在某些Linux上可以跑 .net的應用。

個人評估未來5年 :ARM在後端伺服器領域應該會萎縮;X86的占有率也會因為國内信創推進而萎縮,但仍占主流;龍芯會因為國内領先的自主可控以及相對性能優勢而在PC和伺服器占有率上快速發展,有可能成為“國芯”旗首。

有人說RISC-V也會有迅速發展,這點本人并不完全贊同, “國芯” 在ARM和X86的技術專利上都栽過大跟頭,到現在仍然走不出這兩家的陰霾,而今天的所謂開源并不意味着未來不會改變(MIPS指令集就因為龍芯的發展從開源改為閉源了),關鍵領域一定要控制在中國人自己手上。

中國芯未來的路在何方?借用那句著名歌詞 “路在自己腳下”,隻有掌握CPU設計的根本,才不會受制于人——龍芯釋出了自有指令集 LoongArch 後性能正在突飛猛進,據模拟演算出即将推出的3A6000可以達到 Intel 11代酷睿的單核性能;RISC-V的性能進步也很大,并且因為開源特性獲得了如高通、INTEL等國際企業的青睐和重視。但這兩者也都還處于發展初期,都面臨軟體支援和行業生态等方面的發展問題,需要花大力氣通過不斷擴大應用場景,增強服務支撐,拓展相容能力來實作完善産業生态。從晶片制造角度,估計會有更長的“卡脖子”時間,7nm及以下的晶片制造技術不是可以短時間突破的,其涉及的産業鍊條很長且技術壁壘更深,更需要“工匠精神”和“彎道超車”兩手并舉,忍得下更耐得住,不為一時之利,相信中國人自己的智慧(看看AMD、英偉達、TSMC的老闆)。總之,當下的中國芯,需要 “努力 + 時間” ,才能走上自我循環的良性發展道路。

PS一句,本人一哥們是 SMIC 的 ,他從去年底開始加班頻率越來越高,也不再對國内晶片産業憤青,想必這是一個很好的迹象。

@某金融企業 系統工程師:

個人比較看好ARM,鲲鵬性能目前在幾個國産晶片中,屬于比較好的。生态也比較豐富,大部分開源都有ARM版本。但是目前需要最高優先級考慮的是是否能夠供貨。

@actor168 中國聯通軟體研究院 研發工程師:

短期内哪個生态好、哪個供貨足,性能滿足就最好, ARM>x86>龍芯>RISC-V;

長期:龍芯

@晨晨 金融公司:

我們隻是測試了兩個平台,海光和鲲鵬,目前來看,鲲鵬的性能要優于海光、适配性海光的優于鲲鵬。

3、國産IT整體适配性問題,如遇到各廠商互相推诿,如何有力有效協調推進解決問題?

【問題描述】國産CPU、伺服器、OS、虛拟化平台之間,适配性等問題較多,遇到時難以定位是誰的原因,各廠家之間互相推诿,如何有力有效的協調各方廠家,共同推進解決問題?

@zzy3620 北部灣銀行 系統環境管理:

作為使用使用者,也還是需要從內建的角度,對問題進行綜合分析,牽頭協調各層面廠商進行聯合排查問題, 對于能明确定位的相容性問題, 為快速解決問題,需要根據當地不同廠商對于金融行業的研發資源和技術支援資源進行評估,協調研發能力較強更大的廠商往往解決問題更快,但根本上還是需要兩個産品廠商進行對接。

@cpc1989 某保險公司 存儲工程師:

一方面,信創項目落地可從兩條主線展開,信創雲主要對應的是信創基礎硬體+作業系統的內建解決方案,應用信創适配對應的是信創作業系統+其他軟體的內建解決方案,着重抓這兩條主線,選擇落地經驗更豐富、案例更多的廠商,可以顯著降低落地難度。

另外一方面,在遇到适配問題時,往往是多方因素共同作用的結果。從解決問題的思路來看,不管是硬體還是軟體層面,做一些元件替換的效率是更高的,選擇成熟落地方案,去避開相容性問題。

@Chenli 某保險企業:

由于現在平台和發行版本較多,要自由組合來實作技術棧自由有些難度,一般某個晶片和某個OS版本和某個中間件服務都有合作,這種情況下,問題響應會相對較快,但是不同系統不可能都用不同的技術。

一個解決方案就是再這個技術方案中,找到一家技術能力比較強的廠商,或是自身培養技術能力較強的員工,牽頭定位。

4、目前鲲鵬的ARM架構何去何從?

【問題描述】目前面對制裁國内如鲲鵬(ARM架構)、海光(X86,AMD授權)這些需要授權的架構該何去何從,如何更新疊代,怎麼發展?還有像申威,公版已經不再更新,那如何進行疊代?

@gavin_zhang 某股份制銀行 系統架構師:

鲲鵬和海光的情形可能還不太一樣,鲲鵬限制稍低。

鲲鵬是買斷了v8的授權,後續基于V8的架構,不受實體清單影響。目前最大的問題是晶圓制造,等待國内晶片工藝的突破。生态其實還行,移動裝置,Mac都是用的ARM同架構,很多開源的,都有ARM版本。

海光最大優勢就是x86指令集,可以相容大部分現有應用。

目前最好的是龍芯,loongArch是我們自己的指令集,目前最大問題也是制造。可惜生态遊稍微欠佳,伺服器CPU也才推出。

5、如何最大限度減少應用改造實作國産晶片平滑更新?

【問題描述】在國産晶片選型過程中,最大的阻礙莫過于新國産晶片對現有作業系統、應用、基礎平台的相容性,能夠最大限度的減少改造成本、可移植性将是優先考慮的晶片選型。但是一些關鍵應用如資料庫、高并發應用場景中,晶片性能也将是重要的考察點。

@吳室長 安徽省農村信用社聯合社:

目前圍繞國産晶片、作業系統以及資料庫都基本形成了一定的生态環境,在實際生産部署過程中會遇到不少問題。目前可以部分業務系統通在x86虛拟化晶片上先部署國産作業系統及相關應用、資料庫、驗證相關功能。并同步在國産晶片上部署相應的應用、資料庫,在穩定性達到一定要求後,可以作為生産環境釋出使用。目前來說鲲鵬晶片的上下遊支援的廠商較多,可以作為首選。對于性能要求高,的高并發,可以通過叢集的方式來找到對應解決方案。

@ljm327 銀行 系統運維工程師:

現在各個廠商無論是基礎平台的還是應用層面的,基本上都有針對各種國産晶片的技術解決方案,也都有相容性測試證明。選擇一個市場案例多的,基本問題不大。

如果選海光或鲲鵬晶片,晶片性能我覺得是不需要太考慮的因素,因為在絕大部分場景下,CPU的性能是大量富餘的。

6、國産CPU替代的成本問題?

【問題描述】國産CPU相對國外同等規格下性能較弱,支撐同樣量的業務需要更多的國産CPU,如何在這樣的情況下盡可能降低成本?

@吳室長 安徽省農村信用社聯合社:

其實在這一點上我想并不是國産CPU性能弱的問題,因為不管是x86還是ARM,或是國産還是ADM、Intel,CPU的主頻都已經沒有太大的差距。除了CPU還要考慮記憶體、IO 存儲等一系列部件的性能。伺服器是一個整體,現在都是大記憶體、大緩存,高速交換機以及NVME的存儲磁盤會讓整個伺服器的性能得到提升,且整體成本降低。很多時候瓶頸不在伺服器本身,我們要從業務、應用、資料庫來找原因,隻有足夠了解自己的業務,才能更好的提高系統的并發,例如通過負載均衡技術、叢集技術等等。

@朱向東 中原銀行 技術支援:

從市場銷售情況看,基于國産CPU的伺服器價格要略高一些,就如何降低成本的問題,個人觀點:

一是在裝置選型時盡可能精準的适配應用場景, 多做POC測試,從衆多産品中實地壓測,性能名額滿足未來五年的業務發展需要即可,因為,電子裝置都是有使用壽命的,一般情況下五年就需要更新換代了,原則就是不超綱不減配擇優配置,籍此來降低成本。

二是根據自身情況盡可能選擇規模化的采購,當采購數量達到一定量級後,廠商或代理商會申請相應的折扣,數量多可能折扣就大。另外盡可能多引入幾家品牌供應商,通過公開招标方式開展市場化競争,也許會降低一些成本。

@zzy3620 北部灣銀行 系統環境管理:

國産CPU目前相同處理性能的價位相對是要高一些,要降低成本需提高CPU的使用效能,盡可能的在部署環節,将業務高峰錯峰的部署到一起,通過虛拟化盡量提高CPU使用效率,盡量準确評估業務需要的CPU計算能力,合理采購。

7、信創伺服器在金融行業内的核心系統替代情況及産品穩定性及故障率如何?

@summit 某城商銀行 架構管理崗:

根據人行的XC試點機關項目建設要求,主要分四類:管理類、機具類、一般類、核心類。核心類指的是核心系統,目前基本上沒有全站替代,都是進行部分XC改造或者雙軌建設。XC産品替代主要有作業系統、資料庫、中間件、伺服器。

1)作業系統主要是統信V20和麒麟V10,目前麒麟投入市場時間比較早,伺服器端使用比較多,且穩定比較好,統信作業系統主要桌面端市場占有比較高,目前也正在進軍伺服器端。

2)中間件主要是東方通、金蝶、普元、寶蘭德等,主要替代産品是nginx、和weblogic,應用比較多的是東方通,隻要使用它的tonghttpserver和tongweb來進行替換;對于部分應用使用Redis的要求,通過測試金蝶的AMDC要比東方通的RDS在單線程的性能要高,多線程都差不多,具體根據業務系統要求進行選擇。

3)資料庫主要是達夢、人大金倉、神舟通用、南大通用等,目前使用比較多的達夢和人大金倉,我們使用的是人大金倉,基本上都能滿足業務系統的要求,測試的名額也能到5000并發的情況下tpmC能達到65萬左右。

4)伺服器主要是鲲鵬920、飛騰S2500、海光7280等CPU品牌,目前主流伺服器廠商都有相關CPU的伺服器,性能從高到低依次是海光7280(32C)、鲲鵬920(48C)、飛騰S2500(64C)。目前穩定性也是海光和鲲鵬要優于飛騰,且通過測試鲲鵬和飛騰的應用适配可以在這兩種類型的CPU伺服器上可以相容并可以進行遷移。其他龍芯、兆芯目前金融行業應用較少,使用多的也隻是在桌面端使用。

8、單從技術層面來看,不同應用場景下企業伺服器CPU的信創選型對比?

【問題描述】單從技術層面來看,在追求穩定可靠的基礎上,不同的應用場景對計算資源的需求并不完全一緻,也對應着不同的技術選型需求:1)雲平台,着重于計算資源的虛拟化,需關注實體CPU對虛拟化技術的支援、實體CPU與虛拟CPU的超分比、虛拟CPU的處理能力等名額;2)資料處理平台,着重于并發處理能力,關注CPU單核性能、CPU超線程或多核能力、IO吞吐能力等;3)軟體定義存儲,不同的底層存儲媒體IO能力适配不同的算力需求;4)其他應用。想請教下,在如上四類應用場景下,不同的CPU應用的優劣對比和技術選型?

@actor168 中國聯通軟體研究院 研發工程師:

雲平台上優選x86/amd64架構,他們對于虛拟化的積累比ARM要多得多,是以海光>鲲鵬;

資料處理平台,具體情況具體分析,以我們的場景來看,Kakfa、MongoDB這些的測試結果看,intel>鲲鵬>海光;

存儲類,這個場景發現ARM要優于海光;

業務應用:鲲鵬幾乎與海光等同,差别不大。

@kingdonwang 人民銀行清算中心 系統工程師:

雲平台所提供的能力重點在于通用算力,而看重CPU性能;業務讓對于代碼的适配性有要求,并且對硬體設施的整體穩定性也有有要求,是以對CPU主頻、核心數,以及程式代碼開發門檻等都有要求,在目前條件下優先建議海光X86、其次建議飛騰ARM;

對于資料處理平台不知是否面向AI方面的,業務方面應該是人工智能業務領,這個重點是看GPU,隻能CPU能把GPU資源排程好就可以了,主要作業系統和AI平台的相容性,對性能要求相對雲平台要低,ARM架構是不錯的選擇;

對于軟體定義存儲,業務核心是IO性能和容量,一般對CPU的通用算力要求不高,隻要SDS軟體适配過,能夠相容CPU指令集就可以了。

@匿名使用者:

雲平台,從相容性上來說c86的稍好,不過ARM的目前看來,支援也沒有問題,其他的沒有測試過;

資料處理平台,從并發能力上,ARM由于核數較多,并發能力強一點;

軟體定義存儲,鲲鵬本家的存儲都在ARM上,技術積累較多;

其他應用,c86需要的改動是最少的,但是性能一般。

9、如何能夠更好的發揮信創CPU的優勢?

【問題描述】金融行業目前正在廣泛的進行信創化改造,一方面是政策要求,另一方面我們也不應該為了信創而信創,而是應該思考在實踐中如何能更好的發揮鲲鵬/海光的優勢?例如多numa,多核心,在我們實際使用中如何能更好的提升應用的性能?海光與鲲鵬在使用過程中應該有怎樣的側重?是否有一些具體的案例?希望與各位一同交流。

@吳室長 安徽省農村信用社聯合社:

其實這個側重可以很好了解,一般金融企業的預算充足,可以海光、鲲鵬多路并發的模式。但是建議一套業務系統,盡量使用一個技術路線,這樣在後期運作維護過程中會減少工作量。如果說要有所側重,性能高的晶片,例如單核主頻高的,可以用于資料庫的部署。而核心多、主頻不一定高的晶片,可以部署資源池用于應用部署等。這樣才能發揮晶片的優勢。

@匿名使用者:

信創CPU大部分單核能力不強,核數相對較多,可以通過多線程來提升CPU算力,但是由于線程存在上下文切換,線程也不宜過多。

綁核确實可以提升性能,但是也降低了多程序的排程能力,需要謹慎使用,隻對核心程序,如SDN的控制程序等對延遲極端敏感的服務,進行綁核。

10、在衆多的國産晶片中,中小金融企業如何進行選擇?

【問題描述】在衆多的國産晶片中,我們中小金融機構應該如何進行選擇,才不會給自己未來埋下坑?

@朱向東 中原銀行 技術支援:

目前主要有六大國産CPU廠商。

海光CPU代表産品有海光1号、海光2号、海光3号、海光4号等,是X86(AMD)指令集體系,目前在市場主推海光3号,海光CPU主要有X86最新授權,性能較強,應用生态豐富等優勢,但目前自主化程度争議較大,股權結構複雜,無桌面授權,是以,其産品主要覆寫伺服器領域,未覆寫桌面領域。

龍芯CPU代表産品有龍芯1号、龍芯2号、龍芯3号等,是LongISA+MIPS過渡到LoongArch指令集體系,龍芯起步最早,适配廠商多,自主化程度高,但MIPS生态應用匮乏、性能一般,不利于商用市場拓展。目前産品覆寫桌面和伺服器領域;

鲲鵬CPU代表産品主要有鲲鵬920,是ARMv8的精簡指令集體系,ARM前景廣闊,産品線極其豐富,性能最強,DZ和商用市場接收程度高,但受制裁中,未來存在不确定性,目前産品覆寫伺服器、桌面、嵌入式,以及HW存儲等領域;

飛騰CPU代表産品有騰雲S系列、騰雲D系列、騰珑E系列, 是ARMv8的精簡指令集體系, ARM前景廣闊,産品線極其豐富,性能最強,DZ和商用市場接收程度高,但産品起步晚,性能相對弱勢,目前産品覆寫伺服器、桌面、嵌入式等領域;

兆芯CPU代表産品有ZX-C、ZX-D、KX-5000、KX-6000、KH-20000, 是X86(VIA)指令集體系,在上海地區覆寫廣,X86應用生态豐富,但是早期的X86核心層級授權,市場開拓不足, 目前産品覆寫伺服器、桌面、嵌入式等領域;

申威CPU代表産品有SW1600、SW1610、SW26010,是ALPHA,SW64指令集體系,在JF市場占有率高,底層應用和超算方向為主力,但是商用産品開發不足, 目前産品覆寫伺服器、桌面、領域。

對于中小金融機構來說,建議選擇生态覆寫面廣的、處理性能最優的,并結合自身應用系統對國産晶片的适配情況,選擇遷移改造工作最優的産品。

解讀 | 企業伺服器信創技術路線(ARM、x86、龍芯)如何選型?

繼續閱讀