每一起嚴重事故背後,必然有29次輕微事故和300起未遂先兆以及1000起事故隐患。—— 海恩法則(Heinrich‘s Law)
随着雲計算時代的到來,大量企業将自己的業務逐漸遷移上雲。雲計算的彈性,讓IT資源購買、擴容等更簡單。許多企業,已經不要花費巨大的人工時間,投入在IDC、伺服器、網卡等實體資源的購買、擴容、更新等等。
但随着資訊時代的發展,業務線上化,業務系統服務客戶規模更大,系統的穩定變得更加重要。一旦出現故障,運維人員無法提前預警、以及無法最快時間内尋找出問題,極易影響到業務,造成巨大損失。
面對龐大的業務系統、多樣的服務子產品、海量的日志與監控資訊、極緻的業務需求等,如何建構企業的快速、自動化、智能化、全周期的智能運維與預警系統,已經是企業競争力的一部分。
是以,越來越多的企業開始搭建屬于自己的智能運維平台,力圖減輕運維人員的負擔,以及更智能的故障預警、更快的響應。尤其是在這個業務上雲的時代,企業運維平台的價值密集一直在更新,許多企業已經從基礎的資源購買維護中,更新到對業務價值的提升上。
由于泛日志類資料的利用與分析,正在成為企業競争力的一部分。研究報告表明,泛日志類機器資料和規模快速增長,企業需要通過更加智能的運維平台,來為業務提供參考。加之業務系統的時間價值密度逐漸加大,系統服務的客戶指數級增長,業務系統的複雜度和叢集規模變得越大,是以一個穩定、高效且實惠的智能運維平台逐漸成為一個企業安身立命的根本。
但是在搭建智能運維平台時,我們又經常會遇到以下幾個挑戰:
1、海量日志,如何快速分析告警:比如千億、萬億條日志,如何實時查詢分析?如何確定實時穩定寫入?
2、系統複雜,數十個次元的資料,如何更高效地多元度分析?
3、如何抽絲剝繭,從中找的最重要的資訊?比如,Error日志有幾萬條,如何找到重要資訊?
4、海量日志長周期儲存和處理流轉:從實時資料到曆史資料,如何滿足不同的分析模式和存儲要求?
阿裡雲在這些年服務阿裡巴巴經濟體、以及阿裡雲客戶時,也遇到過許多這類的問題。阿裡雲通過不斷打磨,推出了阿裡雲日志服務SLS,助力客戶建構智能運維平台。
在9月18号雲栖大會上,阿裡雲智能進階産品專家铧劍為大家帶來了題為《雲時代的智能運維平台日志服務,助力企業創新疊代》的分享,在分享中詳細地介紹了阿裡雲日志服務SLS,是如何為使用者提供一站式的日志采集、告警、存儲、分析以及可視化的能力,幫助企業的技術運維人員在雲時代,能夠基于SLS建構自己的智能運維平台,快速分析系統狀态、洞察業務,助力企業的快速疊代和業務創新。
阿裡雲日志服務SLS,具備以下幾個優勢:
1、 秒級實時分析和告警:千億條日志中,秒級傳回10億條記錄
2、 多元度資料聯合分析能力:并提供高維查詢、實時分析、定時任務、可視化能力
3、 更深入細節洞察:從秒級細節、異常點位AI檢測、資料聚類來助力抽絲剝繭,發現重要資訊

這些能力,幫助客戶對Logging、Metric、Tracing資料進行統一采集存儲分析,滿足業務監控、日志分析、安全審計等要求,輕松解決如何快速、多元、深入細節分析的挑戰。
同時,SLS提供全周期的資料流轉能力,近期新釋出的資料加工、資料投遞,可支援不同的分析模式、周期要求。利用資料加工,企業可以根據不同的分析要求,對資料進行規整、ETL。而利用資料投遞,企業可以滿足不同時間周期的資料處理方式、儲存方式的資料流轉要求。
是以在這個業務上雲的時代,我們需要更智能的運維平台,幫助我們的業務平穩、智能、高效地運作。我們堅信,基于阿裡雲日志服務SLS搭建,企業的智能運維平台,能真正幫助到企業進行業務價值的創新疊代,助力企業客戶的業務,更穩定且快速地發展。