天天看點

四川農信雲平台資源管理探索與實踐

近年來雲計算技術發展迅猛,銀行業為應對業務量增長和快速創新的挑戰,逐漸開展基于雲平台的分布式架構轉型。四川農信作為國家發展改革委等9 部門指定的第一批數字化轉型夥伴行動倡議機關,全面實施智慧銀行建設戰略。在轉型過程中,逐漸推進基礎架構由傳統虛拟化向雲平台過渡,于2020 年實作自有雲平台「蜀信雲」的成功投産,并配套運維理念和機制流程的轉型,推動資料中心由傳統的IT 成本中心向IT 服務中心、價值中心轉變,提升IT 服務供給能力。本文基于四川農信在雲平台資源管理過程中的模式探索與實踐展開,對傳統環境與雲平台基礎資源管理兩種模式進行對比,希望為同業機構提供參考。

面臨的挑戰

近年來,随着開放平台虛拟化技術的發展,X86 伺服器有了取代小型機乃至集中式存儲的趨勢,但基于傳統虛拟化技術的基礎平台仍然面臨一些問題。

1. 裝置選型标準不統一

X86 伺服器競品衆多,配置靈活,缺乏适配标準,導緻采購前需要花大量精力進行基于業務場景的資源測算,以評估機器配置與數量。

2. 部署配置設定效率低

傳統虛拟化部署效率低,批量化部署配置複雜。部署規模受産品底層架構能力限制,單一叢集數量往往在數十台左右, 難以形成大規模叢集。同時,在存儲和資料庫虛拟化上仍存在顯著的性能瓶頸,高并發、高I/O 場景仍然需要連接配接集中式存儲并通過實體伺服器承載的資料庫。

3. 資源彈性伸縮自動化程度低

傳統虛拟化無法實作資源的自動彈性伸縮,在應對“雙十一”、春節等交易高峰時,需要提前預估并對業務系統依賴的硬體資源進行擴充。應用伺服器、資料庫伺服器與負載均衡服務之間的關聯擴充難以實作完全自動化,且高峰過後不便于回收,大部分時間因資源閑置而造成浪費。

4. 運維管理難度大

傳統基礎架構依賴大二層網絡和VLAN 進行網絡隔離,導緻網絡管理者和虛拟化管理者需要做大量協同配置,管理複雜。項目資源的生命周期管理由資源管理部門負責,項目組無法實作對資源的自主建立、自主管控、自主删除。資源管理部門疲于應付各個項目組的資源需求。

基于雲平台架構的解決思路

雲平台通過軟體定義的方式更好地實作了計算、存儲、網絡、資料庫等各類資源有效池化,真正實作了“資源共享,按需使用”。

1. 裝置選型

X86 伺服器選型方面,雲平台帶來的一體化解決方案以定制化的标準機型為主,以計算、存儲、網絡、資料庫等産品大類形成裝置的配置基線,産品大類下再根據具體用途形成更詳細的規格,如存儲類可按對象存儲、檔案存儲、塊存儲做差異化的硬體配置。

2. 部署配置設定

雲作業系統的安裝部署過程遵循标準化、自動化原則,避免繁雜的手工配置導緻部署出現的各類問題,同時顯著提高了部署效率。

3. 資源彈性伸縮

雲上資源“即開即用”,可定時或按需(如設定資源使用率門檻值等方式)進行資源的自動伸縮,由此極大地提高了資源使用效率。

4. 運維管理

基礎資源的配置設定實行“配額制”,各個項目團隊(租戶)在各自的配額内“自取自用”,自主管理資源的生命周期,将雲平台運維人員從資源增删改查的重複勞動中解放出來。

雲平台基礎資源管理的落地實踐

為了滿足四川農信向分布式架構轉型的需要,資訊科技中心對比主流的分布式雲平台産品進行了調研和測試,選擇了有銀行實施案例并經過大規模部署場景驗證的原生雲技術,建構涵蓋IaaS、PaaS、DaaS、SaaS 多個層面,支援多活單元化部署,對包含分布式核心業務在内的143 個典型場景進行了技術驗證,為蜀信雲平台技術選型提供了充分的依據。

1. 裝置選型

以雲平台标準機型為主,不同規格的機型用于涵蓋不同使用場景。根據我社需求的雲平台元件範圍,部署需要使用30種不同規格的機型,為了标準化管理與集中采購,我們要求雲廠商對配置相近的機型規格進行整合,最終收斂為8 種标準伺服器機型,用于我社專有雲的部署。

為了在裝置層面更加自主可控,避免由于貿易摩擦等不可抗因素造成部分國外晶片斷供,進而導緻裝置無法正常生産供應,督促雲廠商對國産晶片伺服器進行相容性測試驗證,提供更多的可選擇性。

2. 部署配置設定

(1)部署情況。四川農信“蜀信雲” 一期建設使用近700 台X86 伺服器,搭建了開發測試雲和生産雲兩套獨立的專有雲平台。開發測試雲由200 餘台伺服器組成,支撐各類智能項目的開發、測試、産品疊代;生産雲由400 餘台伺服器組成,按同城站點級容災要求,規劃為兩個可用區,分别部署在自建資料中心與租用機房。

同一可用區内,雲服務(如虛拟機、對象存儲、關系型資料庫等)均遵循高可用原則,以叢集方式部署,提供同一服務的多台伺服器散布到不同的機櫃中, 避免單機櫃掉電造成服務不可用。随着未來建立資料中心的落成,四川農信将逐漸演進為“三地四中心五節點”的異地容災架構。

目前,智能管道、智能決策、智能貸款、智能營銷和開放銀行等系統已經正式上雲投産運作,影像平台、新金融工具準則等系統即将部署上雲。

(2)資源隔離。為滿足多法人業務架構下的業務營運需要,蜀信雲通過雲平台多租戶能力,将省聯社與行社群分為不同租戶,采用多級“組織”結構以及“資源集” 的管理方式實作資源的分組與隔離。蜀信雲中,一級組織為“省聯社”,其下劃分為“生産”“準生産”“開發”等二級組織。同一級組織下的不同二級組織通過VPC 實作網絡隔離。在實作了生産與測試等環境的隔離之後,蜀信雲還提供了 “資源集” 的隔離功能,為每一個上雲項目建立唯一對應該項目組的資源集,以此實作同一環境下不同項目組間的資源隔離。

3. 彈性伸縮

雲平台服務的伸縮主要展現在雲上虛拟機的彈性伸縮和對象存儲的彈性容量。以雲伺服器彈性伸縮為例,首先建立彈性伸縮組,将一部分雲伺服器加入到彈性伸縮組,統一對外提供服務;然後配置伸縮任務來實作實際業務中雲伺服器的彈性伸縮,橫向擴縮容。伸縮任務的類型可以是定時任務或動态任務,當業務峰值的時間點較為固定或可較為準确地預測時,可以通過配置定時伸縮任務,在預期的時間自動執行伸縮組擴容;當業務的峰值時間點不太能準确預測時,可以通過配置動态任務或告警任務,當雲伺服器資源使用率達到一定門檻值後,自動執行伸縮組擴容。同理,在使用率低于一定門檻值時自動觸發減少伸縮組中雲伺服器的數量,最大程度地提升資源使用效率。

4. 運維管理

(1)運維組織。相對于傳統架構的運維管理,雲平台的運維管理特征是需求數量大、頻度高、實施周期短,呈現出靈活、高效的網際網路IT 運維特征。既需要滿足傳統銀行業務穩定可靠的需求,又要滿足網際網路金融行業快捷靈活的特性。四川農信一方面從社會和校園招聘合适人員,另一方面從傳統運維團隊中抽調有經驗的工程師,與廠商駐場服務支援人員組成運維團隊,共同參與到雲平台的建設、維護工作當中,不斷學習汲取廠商的運維經驗。逐漸從觀摩、咨詢,到參與規劃、讨論, 到實際上手制定變更計劃、操作手冊,制定運維規範,并持續提升自主運維能力。

(2) 資源管理。雲平台資源通過CMDB 進行生命周期管理,及時掌握資源使用量和預估未來資源水位;項目資源以資源集分隔,在資源集次元進行配額管理, 執行個體規格受配額限制,避免資源配置設定虛高造成浪費。

5. 落地過程中需要重視的其他問題

首先,集中架構向分布式架構轉型。分布式架構相對于集中式架構更注重應用系統部件的解耦,以服務無狀态為設計原則,大量采用容器化部署的微服務架構實作靈活開發。在集中式架構下技術棧相對單一,注重從業人員的技術深度,而在分布式架構下,技術棧激增,各種開源架構及流派,更要求從業人員的技術廣度,由此帶來轉型過程中原有人員技術力不足的問題,需要大量的知識轉移。同時由于技術疊代迅速,難以沉澱形成有效的知識庫, 常常需要見招拆招。

其次,公有雲向專有雲輸出。在運維平台建設方面,雲服務商的原有架構側重跨行業的通用性設計,與銀行業既有運維模式存在一定适配性差異,是以還需要雙方深入探讨,統籌建構,在多個層面充分調研運維管理需求,不斷融合改進,以期實作更加精準、行業适配度更高的一體化運維管理平台。

展望

現階段,我社雲上業務系統正相繼投産營運,雲平台資源管理與傳統業務的資源管理仍在不斷磨合,管理模式和理念還需要适應、優化和改進。

雲平台在資源快速供給、彈性伸縮、自動化智能化管理維護等方面,還有巨大的潛力有待開發。未來,我們将通過合理配置設定、資源整合進一步降低IT 成本,為建構三地四中心五節點的彈性容災架構做好技術儲備,進一步為全省提供更加便捷和普惠的金融服務。