天天看點

龍蜥社群成立系統運維SIG,重磅開源sysAK系統運維工具集

系統運維SIG緻力于打造一個集主機管理、配置部署、監控報警、異常診斷、安全審計等一系列功能的自動化運維平台。

歡迎更多開發者加入系統運維 SIG:

網址:

https://openanolis.cn/sig/sysom 郵件清單:[email protected]
龍蜥社群成立系統運維SIG,重磅開源sysAK系統運維工具集

OpenAnolis 龍蜥社群(以下簡稱“龍蜥社群”)正式成立系統運維(System Operation&Maintenance, sysOM)SIG。阿裡雲和統信軟體作為系統運維 SIG 的聯合發起方,将攜手龍蜥社群開發者一道,努力在自動化運維領域建構強大的生态體系,促進系統運維 SIG 的相關項目快速部署于廣大的業務場景。

系統運維 SIG 目标是緻力于打造一個集主機管理、配置部署、監控報警、異常診斷、安全審計等一系列功能的自動化運維平台。探索和實作創新的 sysAK 工具、高效的 LCC(Libbpf  Compiler Collection)開發編譯平台及 netinfo 網絡抖動監控系統等,實作系統問題的快速上報、分析與解決,提升叢集的全自動運維效率,與社群合作夥伴一道共同建構大規模叢集運維生态鍊。還記得我們的非典型程式猿青囊嗎?在前幾期的雲巅論劍微信公衆号裡,我們介紹了

sysAK 的 memleak 檢測工具 coredump 瘦身技術 以及 網絡抖動監控利器netinfo ,外部開發者對我們這個工具集表達了強烈期待,今天,我們将把系統運維 SIG 的第一個項目,隆重的介紹給大家,并将其正式開源。

什麼是 sysAK

sysAK,全稱是 system analyse kit(中文名青囊),基礎來自于阿裡百萬伺服器的多年運維經驗,通過對這些經驗進行抽象總結出典型場景,針對不同的運維需求提供了一系列工具,形成統一的産品進行服務。工具集包含了很多強大的底層系統運維能力,這些工具融合到了不同産品的運維平台中,實作高效的自動化運維。

sysAK 誕生背景

在系統運維過程中,資源監控與利用、問題排查與解決是核心訴求,怎麼樣做到這些,需要一系列的作業系統底層能力與工具,這些能力與工具目前比較多的分散在不同的場景,怎麼有效的整合去發揮他們的作用以及更友善的在系統上進行部署,缺少一個整體的方案,特别是在現代雲計算中心中,叢集大規模的機器通常包含不同的業務場景、系統及硬體平台,對這些能力與工具也有着非常高的要求。同時目前很多現有的工具對專業知識要求過高,對普通運維人員來說存在不低的門檻。是以 sysAK 誕生的目标是通過統一的跨平台工具集補齊系統運維現有能力,并高效易用的發揮作用。

sysAK 技術特點

由于不斷發展和變化的複雜業務環境,工具集也需要持續疊代,以期望覆寫更多的場景,是以希望通過社群合作,共同打造出這個跨平台的統一工具集。為此,sysAK 在技術實作上采用包容的架構:

龍蜥社群成立系統運維SIG,重磅開源sysAK系統運維工具集

工具集支援多種語言格式,c、shell、python、go 等,友善不同語言習慣的開發者進行開發,快速內建;同時針對需要采集系統核心資料的情況,也同時相容 Linux kernel module 和 eBPF 兩種技術,對核心版本不做限制。當然除了功能外,sysAK 還首提自我資源控制的概念,避免工具運作過程中對系統的資源消耗和産生大的幹擾。

sysAK 核心能力

目前工具集覆寫系統運維典型場景,包括三大類功能:

1、線上問題分析診斷:

  • 診斷典型問題如負載異常、網絡抖動、記憶體洩漏、io毛刺、性能瓶頸、應用異常等,針對性的提供工具,同時盡量減少工具的專業性,讓使用者更易使用和解讀。

2、資源監控:

  • 針對各種系統資源(CPU、記憶體、網絡、檔案 IO、核心管理結構等)提供更精細化的資源監控,幫助業務運維實作細粒度的運維排程,高效的運用資源。

3、系統介入:

  • 主要針對 2 種情況提供系統介入能力:

一是問題分析診斷時,需要驗證特定 case 或模拟注入才能真實确定問題進行修複;

二是總有不可預期的問題會發生,對于業務來說很多問題發生後,怎樣快速恢複和止損才是第一要務,對于不是整機異常的問題(系統級死鎖、夯機),提供介入能力對系統進行恢複或故障隔離等。

sysAK 規劃

sysAK 在龍蜥社群開源,并采取 SIG 共建協作模式,每季度釋出新版本更新,包含關鍵 bug 修複和新特性、新能力,并逐漸将産品完整能力開源。

目前已将代碼放到了龍蜥社群進行了托管,先期開源的代碼除包括基礎開發平台、以及前面大家非常關注的記憶體洩漏工具(memleak,見

AK47 所向披靡

一文)外,另外還包含了一些常用的工具:loadtask(系統負載分析)、runlatency(系統抖動分析)、sysmonitor(sys cpu異常自動資料抓取)、taskctl(程序異常注入)、tracesig(程序信号跟蹤)、cpuirq(中斷資訊分析)。sysAK 裡會逐漸內建和開放很多其他強大的工具,下一階段開放的重點工具包括:

netinfo—網絡狀态實時監控與分析,精确分析網絡問題

ossre—沉澱阿裡雲運維知識庫,自動分析快速識别已知問題

appscan—程序性能瓶頸快速界定,業務調優利器,在多個客戶現場調優中發揮了實際作用

ulockcheck—應用鎖分析工具

sysconf—系統配置差異精準分析,輔助業務調優與分析變更導緻的問題

sysAK 項目位址:

https://codeup.openanolis.cn/codeup/sysAK

更多 sysAK 相關文章:

風雲再續:他抖任他抖,IO診斷在我手 netinfo:揭開網絡抖動面紗的神器 coredump 瘦身風雲 AK47所向披靡,記憶體洩漏一網打盡

—— 完 ——

加入龍蜥社群

加入微信群:添加社群助理-龍蜥社群小龍(微信:openanolis_assis),備注【龍蜥】拉你入群;加入釘釘群:掃描下方釘釘群二維碼。歡迎開發者/使用者加入龍蜥社群(OpenAnolis)交流,共同推進龍蜥社群的發展,一起打造一個活躍的、健康的開源作業系統生态!

龍蜥社群成立系統運維SIG,重磅開源sysAK系統運維工具集

關于龍蜥社群

龍蜥社群(OpenAnolis)是由企事業機關、高等院校、科研機關、非營利性組織、個人等按照自願、平等、開源、協作的基礎上組成的非盈利性開源社群。龍蜥社群成立于2020年9月,旨在建構一個開源、中立、開放的Linux上遊發行版社群及創新平台。

短期目标是開發龍蜥作業系統(Anolis OS)作為CentOS替代版,重新建構一個相容國際Linux主流廠商發行版。中長期目标是探索打造一個面向未來的作業系統,建立統一的開源作業系統生态,孵化創新開源項目,繁榮開源生态。

龍蜥OS 8.4

已釋出,支援x86_64和ARM64架構,完善适配Intel、飛騰、海光、兆芯、鲲鵬晶片,并提供全棧國密支援。

歡迎下載下傳:

https://openanolis.cn/download

加入我們,一起打造面向未來的開源作業系統!

https://openanolis.cn