摘要:
泰康自 2017 年跟進超融合技術,在其穩定性和可靠性上積累了一些生産運維經驗和心得體會。本文通過對超融合技術的調研分析和應用實踐梳理, 希望 為保險行業對超融合選型和場景應用提供一些觀點和思考。
一、引入超融合技術背景及原因分析
泰康作為業内大型保險集團公司和金融科技領先者,在多年前即開始了新一代 IT 基礎架構的評估和探索。其原因一方面來自于集團業務數字化、網際網路化轉型對 IT 基礎架構的靈活性、易維護性和總擁有成本提出了更高的要求,例如快速增長的網際網路資源池,以及大量的開發測試需求;另一方面,傳統的 SAN 存儲架構也在這樣的需求壓力下暴露出諸多弊端:
1 )資源傳遞效率低,周期長。不能滿足業務快速靈活傳遞的要求;
2 )不能通過橫向擴充來增加性能;
3 )各品牌裝置差異較大,軟硬體緊耦合,管理接口不統一,增加運維難度;
4 )災備場景下,存儲異構難度較大;
5 ) TCO 整體成本較高。
針對公司的需求和新型 IT 技術發展, IT 部門一直在不斷探索将小型機、傳統存儲等基于專用硬體、開放性靈活性比較差的傳統架構向基于 x86 伺服器結合虛拟化和分布式存儲,甚至容器和雲管的新一代軟體定義資料中心演進。 2014 年将 Hadoop 平台運作在本地虛拟化平台上, 5 年來該平台運作穩定,并未出現性能相關問題。 2017 年了解到超融合靈活擴充、開箱即用的特點,其優勢有效規避了傳統 SAN 存儲的某些弊端,但是超融合不穩定和不可靠的聲音也不絕于耳。但是通過 分析保險應用特點,傳統大型應用經曆了 U2L 的曆程,以及微服務化和容器化,單機的高負載已逐漸被弱化,同時搭配其他保障業務連續性的軟體(如 Zerto 、 V eeam ),核心生産跑到超融合産品上,已不是多麼可怕的一件事情。
傳統的保險公司也都在業務形态上悄然發生着轉型,泰康已不隻是“保險 + 服務 ”的商業模式,正在用“保險 + 科技 ”打造科技型、服務型的新型網際網路保險公司,利用科技驅動業務。網際網路保險應用已成為新一代年輕人的首選。網際網路應用靈活多變的特性,以及保險行業常有的業務節點,如開門紅等,對開發和上線的速度,以及資源傳遞的時效,如何用最短的時間搭建一套可靠穩健的基礎平台成為了關鍵,以及對投入産出比的分析,是以在認真評估後,泰康在 2018 年就開始在網際網路核心生産環境中引入超融合架構,目前系統已經經過了兩年的穩定運作,其架構優勢也在内部得到發揮。
二、超融合在保險生産環境可行性調研和方案選擇
因為超融合本身沒有延續傳統的計算、存儲、網絡,是以很多 IT 人對這種架構有諸多疑問和顧慮,市場上概念也比較混亂,這裡介紹一些我們調研和評估的心得。
1 、分布式存儲是超融合架構最核心的價值的展現,也是變化最大的部分,是以也是評估該架構性能和可靠性的關鍵。
超融合架構的名字可能掩飾了存儲的重要性,導緻一些使用者不知道評估的重點,但通過對比傳統架構我們能看出來,如果虛拟化繼續使用 VMware ,真正的變化就是用 x86 伺服器加分布式存儲軟體代替了傳統的存儲,而做 IT 的人都知道存儲對于整個 IT 基礎架構可靠性和性能的重要性,是以軟體定義存儲作為超融合架構的最核心的價值展現和關鍵名額,也應該作為架構評估和産品評估的重點。另外,因為虛拟化本身已經在企業内非常普遍和成熟,是以超融合架構很多優勢也都是由分布式存儲帶來的。
關于底層存儲,一些關鍵名額需要重點關注,
1 ) 路徑優化,支援資料通路路徑優化
2 ) 資料分層,軟體自動将經常通路的熱點資料放在 SSD 磁盤上,而将不常用的資料放在 HDD 磁盤上
3 ) 資料快照,存儲底層具有資料快照技術(非虛拟化軟體的快照),可實作對資料進行快照保護及快速恢複
4 )資料保護,具有完善的硬碟和節點資料保護機制,當發生硬碟乃至節點失效時不會影響資料正常通路。
當然,作為超融合架構,畢竟也不同于伺服器和分布式存儲分離部署模式,如何将虛拟化和分布式存儲統一部署,并且保持高可用,甚至更優的性能和資源消耗,也應該作為這一類架構評估的重點。
2 、超融合 的 架構和特性都已滿足生産環境的需求,但 也 要關注具體廠商的實作和成熟度。
業内對于超融合可靠性以及超融合的應用場景也有很多聲音,其實從我們内部調研和使用的情況來看這些認知都非常過時了。上一個章節也分析了,超融合的穩定性有很大一部分都來自于分布式存儲,可以看一下目前主流超融合産品在分布式存儲架構和特性上的可靠性的保障。
1 )最核心的副本技術已經比較成熟,三副本的情況下允許兩個節點同時全部壞掉,這個備援度可以滿足生産環境需求,而且比雙控制器的備援度更高;
2 )分布式存儲的自動資料恢複比傳統存儲方式更高效智能,能減少故障出現後的運維壓力;
3 )磁盤資料校驗,拓撲感覺,甚至雙活等企業級存儲功能一線超融合廠商都已經具備,但目前采用超融合内置雙活的案例還比較少,相對而言,配合第三方成熟的虛拟化災備産品例如 Veeam 、 Zerto 等方案的案例普及度更高;
4 )作為超融合的架構,除了存儲本身的高可用性,還有存儲和虛拟化整合的部分的高可用性也需要關注,目前采用的分布式存儲控制虛拟機的方式都有對應的高可用機制,保證單個存儲控制虛拟機出現問題的情況下,本機上的虛拟機的 IO 通路路徑可以切換到其他節點。
在虛拟機化軟體部分,大部分超融合廠商都在支援 VMware 虛拟化的同時提供了内置的基于 KVM 的免費虛拟化平台,目前在主要功能上都能滿足需求,不過 VMware 的記憶體超分能力目前确實比 KVM 的記憶體管理技術要好很多,内置的虛拟化軟體雖然大部分提供了 VMware 向其平台一鍵遷移的功能,但是使用者自身的習慣,以及對現有平台的綜合考慮,大多數使用者還是用腳投票給了 VMware 。但考慮未來的成本降低和新技術的引入,以及國産化的需求,内置的虛拟化也可以重點評估和儲備。
3、軟硬體方案的選擇和實施等也有關乎可靠性和性能
雖然超融合對于通用 x86 伺服器都可以滿足,甚至可以利舊已有伺服器,但是要想有一個穩定的環境,首先,底層硬體的最好要統一一緻,其次,超融合架構還有對 SSD 、萬兆等要求,并不是随便幾台 x86 伺服器 就能搭建一個超融合叢集,在方案選擇和配置 時 也需要額外關注。
三、超融合在生産環境中的應用實踐
經過評估,我 們 幾年前已開始逐漸引入超融合産品,并将其首先應用于網際網路應用的核心生産環境中,并且同時也在開發測試環境、桌面虛拟化環境中進行部署。以下是一些我們應用的心得體會:
1 )目前一線專業的超融合産品的穩定性完全可以滿足保險業務生産環境需求,例如在網際網路應用中已部署了 16 節點國産超融合産品,穩定運作兩年,實作資源快速搭建和傳遞,滿足業務系統對資源池的需求;其中,有 8 個節點我們還使用了其内置的基于 KVM 的虛拟化,目前也運作情況良好。
2 )另外我們在開發測試也應用了大量的超融合節點。有些客戶認為開發測試平台對性能和可靠性要求不高,可以用來嘗試超融合架構,其實我們内部的開發測試環境運作壓力非常大,每個實體節點有幾十個虛拟機運作,負載遠高于生産環境,而且開發測試環境經常會涉及配置調整、變更,相對生産環境來說更為複雜。作為一名運維人員,誰敢說開發測試環境不是生産環境,測試環境發生任何故障,同樣會受到上司的“親切關懷”和靈魂拷問“影響範圍是什麼”“什麼時間恢複”,運維壓力同樣亞曆山大。
3 )超融合整體的優勢在各個環境中都展現的比較充分,包括:
A. 降低 IT 架構整體複雜度;
B. 架構橫向的彈性擴充伸縮能力和快速傳遞;
C. 各超融合廠家都支援通用标準 x 86 伺服器硬體,綜合成本比傳統架構要低;
D. 運維時面向一家超融合服務商,不用多家扯皮,運維簡單;
E. 軟體更新管理簡單。
最後,對于廠商的選擇方面, Nutanix 作為标杆産品,穩定性和可靠性等方面經常讓大家忘記它的存在,當然,價格也比較奢侈。國内超融合廠商近年也如雨後春筍般湧現出來,整體成本效益較高,本地服務也很及時,例如 SmartX 作為國産頭部超融合産品供應商商也是業内使用較廣的廠商之一。
四、超融合的未來和其他方面的思考
超融合和私有雲之間的關系:超融合解決的是基礎架構資源層面的整合問題,雲計算是解決使用者傳遞的問題,目前各大公司都在自研雲管平台,雲管平台搭配超融合,超融合架構為雲計算提供基礎設施服務在我們看來是未來企業搭建私有雲的不錯選擇。
從職業發展角度,傳統的存儲管理者也應該考慮往雲計算方向發展了,否則已經跟不上時代的發展潮流,就像當年的去 IOE 浪潮中,小機管理者也在探索新的技術方向, x 86 / 虛拟化 / 雲計算等都是不錯的方向, DBA 也在學習 MySQL 等開源資料庫。
如今産品衆多,每家的技術實作細節不一樣,任何産品都有其局限性,如何把資源用到正确的場景,把控風險,是考驗運維人員的經驗和能力。