天天看點

雲存儲系統監控服務分析

      監控在我們的日常生活和生産随處可見,交通、銀行、超市、商場、學校、工廠等等,在刑偵、勘探、科研、安保等各種領域,發揮了越來越大的作用,已經成為人們不可或缺的安全屏障和有力工具。

      監控對于計算機網絡同樣有着巨大的意義和價值,從伺服器性能到應用服務狀态,從硬體資源到網絡流量,為業務應用、系統運維等提供準确的運作狀态資訊,及時發現、暴露問題。

      oss作為智能分布式雲存儲系統,對外提供海量、安全和高可靠的存儲服務,使得使用者無需關心系統資源和伺服器運維問題,将更多的精力專注于業務和應用層級等上層建設。随着業務量日漸龐大,使用者對oss系統服務品質的要求在日益提高。既然如此,除了提供基本的存儲服務之外,我們還能為依賴我們的使用者做點什麼,能讓他們實時地了解自己購買的服務狀态以及業務的使用情況,并且能夠及時的發現問題、診斷問題和解決問題呢?所謂“運籌帷幄之中,決勝千裡之外”,我們不僅僅自己需要做到這一點,更要幫助使用者達到這一點!

       是以,為了幫助使用者更好的使用oss,直覺地顯示資源使用、服務品質等資訊,讓使用者能夠對系統、業務狀況作出及時應對、保證業務健康運作,監控報警服務迫在眉睫!!

     使用者使用雲服務,或者更通俗的說,使用者花錢買服務,關注的本質資訊隻有兩個:費用和服務品質。

     比如,使用者業務突然故障,如何讓其很快地定位是業務使用問題還是oss系統故障?再比如,有什麼直覺的方式能夠讓使用者評估oss系統的性能情況,是否滿業務在峰值時的實時性需求?再比如,如何讓使用者對自己的消費行為有準确的預估,友善做出财務成本預算?

     如何滿足使用者痛點,如何能夠使使用者最為關心的資訊以最低的成本,簡明扼要的展現在使用者面前,是我們第一優先級要解決的問題。

雲存儲系統監控服務分析

     目前oss監控提供了3類的監控名額資料:

 使用者計量資料名額: 

存儲空間

使用流量:使用流量:公網流出、公網流入,内網流出、内網流入,cdn流出、cdn流入,跨域複制流出、跨域複制流入

計量請求數:put類請求數、get類請求數

使用者服務品質名額:  

内部錯誤數

使用者業務統計名額:  (相關名額詳細說明請見oss官網控制台)

object熱點統計

地域統計

isp統計

ip統計

referer統計

搜尋引擎統計

鑒權相關統計

     其中,使用者計量資料名額反映使用者bucket層面的資源使用狀況和計量資訊;使用者服務品質名額反映oss系統穩定性以及使用者的使用狀态;而使用者業務統計名額則是根據使用者業務狀态提供一些業務層面的統計資料。

     使用者計量資料名額和使用者服務品質名額是以1小時的時間粒度展示,而使用者業務統計名額以天為統計粒度展示。

     這些統計名額雖能夠在一定層面上給使用者提供資訊,但是在實時性、報警通知機制、性能資訊需求、業務實時狀态等方面還是欠缺的,沒有一套完整的監控metric機制和服務體系。

     是以,我們一直在努力改變!

明确監控對象資訊,設計完整的監控metric是設計監控報警系統的基礎核心

     從前面分析使用者痛點獲悉,需要被監控的對象是服務品質和消費情況。服務品質主要反映在使用者請求行為和系統性能表現中,而使用者的消費情況可以使用系統的計量資訊集中展現。是以,可以按照基礎資訊、性能資訊和計量資訊對我們的監控資訊進行分類。

      基礎資訊主要包含了使用者請求數、使用者流量、伺服器錯誤和用戶端錯誤。目的是讓使用者能快速判斷服務的負載和健康程度。

使用者請求數:該名額資訊展現了系統的負載情況。

使用者流量:流量展現了使用者請求占用的網絡資源情況,同樣反映了系統負載。

伺服器錯誤:oss内部系統錯誤,反映系統的穩定性和服務能力。

用戶端錯誤:由使用者錯誤使用造成的錯誤。

      請求錯誤需要區分系統錯誤和使用者錯誤。雖然使用者錯誤和oss服務無關,但是影響了使用者的業務,也需要呈現給使用者。當使用者發現錯誤請求數不符合預期時,肯定希望能夠進一步調查錯誤原因,此時如果将錯誤的請求按照一定的狀态或者錯誤碼進行分類統計,并且給出對應的操作行為,就能夠為使用者定位、排查問題起到關鍵作用。是以我們可以依據常見的http狀态碼和oss的錯誤碼對錯誤請求進行歸類,并且統計。

      請求延時是衡量系統性能的重要名額。是以實時的延時資訊監控和毛刺狀态對使用者評估業務需求和服務性能至關重要。而且請求延時包含網絡延時和伺服器延時兩大部分,通過監控e2e(端到端)延時和伺服器延時,能夠快速幫助使用者定位性能問題。

      費用是使用者關注的重要資訊。而oss計費方式的均按照階梯形式進行,按自然月累計,是以計量的當月消費資訊展現肯定是以月為粒度統計相關的計量資料。我們會為使用者呈現實時和本月已消費這兩種計量資訊,幫助使用者實時監控消費狀況和預估消費趨勢。

      oss的計量資訊分為3類:存儲大小、網際網路下行流量和有效請求數。因為計量賬單以小時為機關輸出,是以,計量資訊的實時展現也以小時為粒度。

      當然,因為使用者使用服務的業務模式不同,對服務接口的調用方式也不同。每個使用者都有自己關心的更細粒度上的api請求情況以及性能情況,是以我們也可以從更細粒度上監控相關資訊,如,根據api分類統計請求數和性能情況。

      結合以上的監控資訊,再通過更細粒度的收集api層面的監控資訊,能為使用者提供更有針對性的業務監控依據。

利用專業的監控報警服務平台——阿裡雲監控服務,內建其成熟穩定的設計架構、全面完善的服務機制

       目前,雲監控是阿裡雲對外提供的、能針對資源和網際網路應用提供監控服務的産品,同時具有對部分雲産品的監控功能。是以,oss監控報警服務納入到雲監控體系中,能讓使用者更好地建構業務驅動的、跨多個阿裡雲服務的監控報警體系。

       監控報警的及時性取決于資料采集、分析和存儲的頻率。更高的頻率意味着更多的資源投入與技術難度。為了滿足客戶的實時性需求,我們采用分鐘級别的聚合粒度反映業務名額,保障服務品質!

      除了讓使用者能夠直覺的檢視監控資訊,還應該為使用者提供及時的通知機制,這就少不了報警服務,報警和監控休戚相關。

      對報警的要求簡言之:準确、及時。

      如何做到準确?依賴于對業務模型的準确分析和報警規則的靈活設定。對于有明顯門檻值的業務資料,采用門檻值規則;對于有明顯周期性的業務資料,采用環比規則。另外,準确不僅僅指能抓住資料特征,更需要過濾無效資訊防止騷擾和誤判,是以,連續的滿足報警規則的需求也至關重要,能夠排除業務資料不穩定導緻的誤判。

      如何做到及時?依賴于報警資料采樣的實時性和通知機制的多樣性。我們實時監控系統的延時和聚合都能在分鐘級别,保證在故障突發時能通知使用者及時采取相關錯誤。另外,根據不同的優先級設定不同的通知機制,如按照優先級可以分為短信、旺旺和郵件,盡量使得緊急事件能第一事件被通知到負責人。

      提供阿裡雲openapi,讓使用者能夠通過sdk查詢監控資料,基于自身業務邏輯進行監控、報警或者其他更精确的業務資料分析。

      oss監控服務即将上線,敬請期待!

      有任何需求或者建議,請聯系我,很高興能和大家進行需求交流和技術探讨!

------------------------------------------------------分隔符-----------------------------------------------------------

<b></b>

<b>誠聘英才</b>

阿裡雲函數服務是一個全新的,支援事件驅動程式設計模式的計算服務。 他幫助使用者聚焦自身業務邏輯,以serverless的方式建構應用,快速的實作低成本,可擴充,高可用的系統,而無需考慮伺服器等底層基礎設施的管理。 使用者能夠快速的建立原型,同樣的架構能随業務規模平滑伸縮。讓計算變得更高效,更經濟,更彈性,更可靠。無論小型創業公司,還是大型企業,都受益其中。

我們的團隊正在迅速擴張,求賢若渴。我們想尋找這樣的隊友:

基本功紮實。既能閱讀論文追蹤業界趨勢,又能快速編碼解決實際問題。

嚴謹的,系統化的思維能力。既能整體考慮業務機會,系統架構,運維成本等諸多因素,又能掌控設計/開發/測試/釋出的完整流程,預判并控制風險。

好奇心和使命感驅動。樂于探索未知領域,不僅是夢想家,也是踐行者。

堅韌、樂觀、自信。能在壓力和困難中看到機會,讓工作充滿樂趣!

如果您對雲計算充滿熱情,想要建構一個有影響力計算平台和生态體系,請加入我們,和我們一起實作夢想! 

将你的履歷發送到[email protected],标題  應聘阿裡雲-姓名

如果你有自己的git位址或者個人部落格,将會大大加分哦,一起在郵件中發給我吧~~~

繼續閱讀