天天看點

【行業應用】阿裡雲實時計算 Flink 版在運維領域解決方案

行業挑戰

網際網路時代,社交網絡、電子商務與移動通信将人類社會帶入 PB 級别以上的結構與非結構資訊并存的大資料時代。資料量的爆發性增長,使企業 IT 架構不斷擴充,伺服器、儲存設備的數量越來越多,網絡也變得更加複雜。而大資料的 4V 特征,資料量大(Volume)、 類型繁多(Variety) 、價值密度低(Value)、時效高(Velocity) 也使得傳統的技術架構和路線難以高效地處理如此海量的資料。可以說,大資料時代對企業的資料駕馭能力提出了新的挑戰。尤其是大資料平台往往支撐着公司的搜尋、推薦、廣告等核心業務,為了保障良好的使用者體驗和業務效果,運維工作顯得十分艱巨。相比于傳統的運維方式,大資料時代的運維面臨着叢集規模更大、業務元件更多、監控可視化與智能化等更為複雜的難題。

Gartner 在 2016 年第一次提出 AIOps 概念時,AI 代表了 Algorithmic(算法),算法的基石正是海量的資料,在 2017 年将 AI 含義改為 Artificial Intelligence(人工智能)後,同樣需要海量的資料進行處理和學習。我們從下文的 Gartner 描繪的 AIOps 平台架構中同樣能看到資料對于 AIOps、對于運維、對于監控的重要性。

【行業應用】阿裡雲實時計算 Flink 版在運維領域解決方案

智能運維的基礎建立在大規模資料分析和計算之上,當資料量很小時,甚至可以人工判斷和決策,而一旦資料量達到一定規模,大資料涉及的所有技術就都會成為智能運維所依賴的技術。一方面,可以說智能運維是一種新型技術, 因為它從另一個視角去看待運維,對傳統運維進行了創新和升華; 另一方面,也可以說智能運維是一種經典技術,它是一系列成熟技術的結合體, 融入了運維、大資料、機器學習、深度學習等方方面面的技術。在大資料時代,需要從如下領域做好運維平台的建設:

  1. 基礎設施平台化,大資料的 4V 特性,相比于傳統的系統運維,資料的處理架構變得更為多樣化和複雜化,比如多源異構海量資料的分布式存儲、離線批處理、高性能索引、大規模流資料處理,以及可視化監控與報警平台等。
  2. 叢集管理自動化,降低運維複雜度。自動化能夠提升穩定性,将固化的操作交給機器去做,可以降低人為操作失誤,提高線上的穩定性; 自動化還能極大地提高效率,将運維人員從日常煩瑣的操作中解放出來,把更多的時間投入到運維平台的疊代優化上,進而更好地為業務服務。
  3. 運維決策智能化,充分利用大資料分析技術提升預測、發現和自動檢測的能力,實作智能預警,自動修複,動态伸縮叢集,最大化利用資源的能力,減少使用者成本,提高系統的穩定性。

解決方案

【行業應用】阿裡雲實時計算 Flink 版在運維領域解決方案

實時資料收集

在實時資料收集層中,具體包括大資料平台各服務日志資料的抓取上報、服務及主機名額資料的抓取上報、服務及主機可用性資料抓取、配置資訊收集和第三方相關資料接入。其中:

  1. 大資料平台各服務的日志資料由各服務(如 HDFS、HBase 等)按照設計的标準格式進行收集,然後彙總上報到 DataHub/Kafka 的日志 Topic 中。
  2. 服務及主機的名額資料通過指令擷取、日志資料提取、調用服務接口三種方式擷取後上報到 DataHub/Kafka 中對應的原始資料 Topic 中。
  3. 配置資訊通過人工收集後直接入 MySQL 的配置表中,并在系統頁面上提供對配置資訊的增删改查。
  4. 第三方相關資料由第三方系統提供,通過 HTTP 加載方式上報到 DataHub/Kafka 中對應的 Topic。

實時資料接入&計算

在實時資料接入&計算層,對于 DataHub/Kafka 中的實時名額 Topic 中的服務資料,由 Flink 的服務名額計算任務消費後經過計算存儲到 HBase/OTS 的名額表中;同時對于 DataHub/Kafka 中的實時名額 Topic 中的資料按照分鐘級、小時級、天級依次進行彙聚後傳回到 DataHub/Kafka 中對應的分鐘級 Topic、小時級 Topic、天級 Topic 中,最後将各個 Topic 存儲到 ES 對應的 Index 中,供上層資料展示檢索查詢使用;同時部分資料還根據業務需要歸檔到 EMR 離線計算叢集或者 MaxCompute 之中,進行離線深度分析、資料備份提供資料來源。

方案優勢

  • 系統具有高可靠性和高實時性,且不會對底層服務造成影響。本系統底層資料的收集和上層頁面展示是獨立的兩個部分,底層資料不斷收集、處理、存儲以供上層頁面展示使用,上層頁面展示直接從存儲的 HBase/OTS 和 ES 中擷取資料,當大量使用者通路時不會對底層服務造成影響。
  • 系統支援對大資料平台曆史資料的查詢。本監控系統在服務線上業務告警,同時歸檔部分資料到離線大資料系統,是以使得本系統可以支援對大資料平台曆史資料的查詢,同時支援根據時間區間來動态的展示分鐘級、小時級、天級等不同粒度的曆史資料。
  • 系統支援實時監控告警。本監控系統在底層資料收集上來後,對原始資料進行解析增加了告警計算後将告警資訊持久化并實時的向預留的責任人聯系方式發送短信或者郵件。

成功案例

阿裡雲

阿裡雲計算平台體系承載着阿裡巴巴集團幾乎全部的資料存儲以及計算能力,如伺服器規模上 10W+ 的大資料離線計算平台(MaxCompute),以及支撐阿裡雙 11 晚會現場交易大屏每秒處理 25 億條實時日志,作業運作接近上萬台實體機上的實時計算平台。

随着資料規模的不斷擴大,業務需求日益增長,大資料平台及大資料應用業務飛速發展,圍繞阿裡大資料平台和應用的穩定性、成本、效率及安全有了更大的挑戰及更高的要求。阿裡雲大資料運維團隊基于阿裡雲計算平台現有的基礎設施建構出完整的全域大資料運維體系,為最終實作 AIOps 服務。

【行業應用】阿裡雲實時計算 Flink 版在運維領域解決方案

實時計算 Flink 版産品交流群

【行業應用】阿裡雲實時計算 Flink 版在運維領域解決方案
阿裡雲實時計算Flink - 解決方案: https://developer.aliyun.com/article/765097 阿裡雲實時計算Flink - 場景案例: https://ververica.cn/corporate-practice 阿裡雲實時計算Flink - 産品詳情頁: https://www.aliyun.com/product/bigdata/product/sc

繼續閱讀