天天看點

智能化監控告警系統:基于物聯網移動網絡通信服務平台的設計與實作

作者:人人都是産品經理
監控告警系統是一款用于實時監控各類裝置和系統狀态的工具,通過采集、分析和處理資料,生成有價值的名額和警報資訊,并向管理者發送通知,確定系統穩定運作。本文作者對智能化監控告警系統進行了詳細的分析,一起來看一下吧。
智能化監控告警系統:基于物聯網移動網絡通信服務平台的設計與實作

一、系統概述

監控告警系統是一款用于實時監控各類裝置和系統狀态的工具,通過采集、分析和處理資料,生成有價值的名額和警報資訊,并向管理者發送告警通知,幫助管理者及時發現和解決問題,確定系統穩定運作。

  • 保持系統穩定:監控告警系統需要實時監控系統運作狀态,并能夠及時發現問題和異常情況,及時發出告警通知并迅速響應異常,以便管理者采取及時措施。
  • 優化營運政策:監控告警系統支援對各項營運名額進行監控以及分析,幫助營運人員及時調整營運政策,提高營運工作效率。例如通過監控裝置的流量使用情況,合理調整不同套餐的限速政策,避免出現使用者薅羊毛行為導緻的流量浪費;
  • 改善服務品質:監控告警系統支援對裝置和系統狀态的資料進行采集和分析,生成有價值的名額和警報資訊,及時發現并解決問題,避免使用者受到影響,提高使用者體驗。例如通過監控裝置的故障率,當出現大規模的裝置故障時,能第一時間介入解決問題,避免裝置故障導緻使用者無法使用服務。
  • 實作成本控制:監控告警系統支援對成本相關名額進行監控以及分析,幫助營運人員掌握SIM卡資源的使用情況,有效地控制成本。例如,通過監控 SIM 卡庫存情況,合理調整采購 SIM 卡政策,避免庫存過高或過低帶來的損失。
  • 性能和可擴充性:監控告警系統需要具有良好的性能和可擴充性,以應對大量資料的處理和分析。
  • 安全和風險管理:監控告警系統需要具備安全和風險管理機制,以保證資料的機密性和完整性。同時需要進行備份和恢複政策的設計,以應對系統出現故障的情況。

二、功能子產品

智能化監控告警系統:基于物聯網移動網絡通信服務平台的設計與實作

系統主要包括資料采集子產品、資料分析子產品、告警通知子產品、告警處理子產品、資料展示子產品、管理界面子產品等多個功能子產品。

  • 資料采集子產品:負責采集各個子產品的資料,包括但不限于平台系統、SIM卡、裝置等産生的資料。采集的資料會存儲到對應的資料庫中,供後續分析使用。
  • 資料分析子產品:負責對采集到的資料進行處理、分析和計算,進而得出有價值的名額和警報資訊。資料處理子產品包括資料分析、告警規則和算法等子子產品。
  • 告警通知子產品:負責向管理者發送資料分析子產品生成的警報通知,包括短信、郵件、即時消息等多種形式。管理者可以根據自己的需求,選擇接收告警通知的方式。
  • 告警處理子產品:負責記錄告警資訊的處理情況,包括告警資訊是否已經被處理,處理結果如何等。管理者在收到告警通知後,采取措施解決問題,并将處理情況記錄,以便後續分析和跟蹤。
  • 資料展示子產品:負責将監控資料以及分析結果以Dashboard的形式展示出來,幫助管理者更直覺地了解系統運作狀況。例如,管理者可以通過資料展示子產品檢視線上裝置數的曆史趨勢,以便更好地調整營運政策。
  • 管理界面子產品:提供監控告警系統的管理界面,管理者可以通過該界面進行系統配置、警報設定、資料檢視等操作。管理者可以在該界面中設定預警門檻值等參數,用于資料分析子產品的判斷标準。

三、資料采集以及存儲

資料采集和存儲是監控告警系統中非常重要的環節。一方面,資料的品質和及時性決定了監控告警系統的準确度和實時性;另一方面,資料的存儲和處理能力也會對系統的性能和可擴充性産生重大影響。

1. 資料采集

在監控告警系統中,需要采集各個業務系統、裝置、應用程式以及核心名額的資料,包括但不限于伺服器負載、網絡延遲、存儲空間、裝置故障率、使用者通路量等。資料采集的方式可以通過定時輪詢、推送通知等多種方式進行。

一種常見的資料采集方式是通過輪詢擷取各個監控對象的資料。輪詢方式通常會周期性地向監控對象發送請求,并擷取相應的資料。通過這種方式,可以快速、準确地擷取監控對象的資料,但同時也會增加系統的負載和網絡流量。

另一種資料采集方式是通過推送通知的方式擷取資料。在這種方式下,監控對象會主動将自己的狀态資訊推送給監控告警系統,監控告警系統隻需要監聽推送通知并接收資料即可。這種方式能夠實作實時資料采集,避免了輪詢方式下可能存在的延遲和不準确性。

2. 資料存儲

采集到的資料需要進行存儲,以便後續的資料分析和名額生成。監控告警系統通常會采用分布式存儲方案,以保證資料的高可靠性和高可用性。常見的分布式存儲方案包括主從架構、叢集架構等。

主從架構一般是指将資料存儲在主節點上,然後通過從節點對資料進行備份和備援。主節點和從節點之間通過資料同步機制進行資料同步,保證資料的可靠性和一緻性。主從架構方案适用于資料量比較小的場景,相比于叢集架構,主從架構的實作成本更低。

叢集架構則是将資料存儲在多個節點上,每個節點都可以讀寫資料。在資料寫入時,系統會将資料分散到不同的節點上,以提高資料寫入的性能和可擴充性。叢集架構适用于資料量較大或讀寫請求較為頻繁的場景,但相對于主從架構,其實作成本更高。

此外,為了提高系統性能和查詢效率,監控告警系統還可以采用資料分片、索引優化等技術進行優化。資料分片可以将資料劃分為多個部分,分别存儲到不同的節點中,進而提高資料的并發讀寫能力和可擴充性。索引優化則可以通過建立适當的索引結構,加快資料的查詢速度和準确性。

四、名額生成以及警報資訊

在監控告警系統中,名額生成和警報資訊是核心功能之一。通過采集和存儲的資料,系統需要對其進行分析和計算,生成各種監控名額,并及時發出警報資訊,提醒相關人員進行處理和調整。

1. 資料分析

資料分析子產品的主要任務是對采集到的資料進行處理和分析,以便生成相應的監控名額和監控報告。在資料分析的過程中,需要考慮如下幾個方面:

  1. 資料分析算法和模型的選擇:根據不同的監控對象和名額,采用不同的算法和模型進行處理。例如,對于網絡延遲和丢包率等名額,可以采用線性回歸、異常檢測等算法來進行分析和處理。
  2. 實時分析和計算:根據預設的規則和算法對采集到的資料進行實時分析和計算,并将生成的名額和警報資訊存儲到相應的資料庫中,以供後續查詢和使用。例如,對于可配置設定卡數和已配置設定卡數等卡庫存相關名額,需要進行實時計算統計,避免出現卡庫存不足導緻的服務故障;
  3. 可視化和報告生成:為了能讓使用者進行更加直覺和友善的資料分析和決策,需要将分析結果以可視化的形式展示出來。例如,對于故障裝置率和故障裝置數等名額,可以按照時間線使用折線趨勢圖來進行展示。

2. 名額生成

名額生成子產品通常會從存儲的資料中,提取出關鍵的業務名額和監控名額,并将其計算、轉換、聚合等操作,生成新的名額資料。監控名額可以分為系統級别名額、應用級别名額以及業務定制化名額:

  1. 系統級别名額包括CPU使用率、記憶體使用率、磁盤空間使用率等,可以幫助管理者全面了解系統的狀态和性能。
  2. 應用級别名額則更加細化,如某個應用程式的響應時間、通路量等,可以幫助開發人員對應用程式進行優化和調整。
  3. 業務定制化名額通常與業務的核心流程和關鍵性能名額相關,可以根據需求進行定制化,以滿足不同使用者的監控需求,如卡庫存、采購成本、訂單量、故障裝置率等等。這些名額對于業務決策非常關鍵,可以幫助業務人員快速發現問題,及時調整業務政策,提高業務效率和盈利能力。

3. 警報資訊

警報資訊則是根據名額生成子產品生成的監控名額進行判斷和計算,及時發出警報資訊,提醒相關人員進行處理和調整。

根據警報資訊的類型和嚴重程度,可以分為三種:普通告警、嚴重告警和緊急告警。系統可以根據不同的告警級别進行靈活配置,如設定普通告警無需處理,但需要記錄日志;嚴重告警需要及時通知相關人員,以便進行處理;緊急告警需要立即采取措施,以避免損失。

五、算法與規則設計

為了能快速、準确地檢測到異常情況,及時發出警報,需要設計各種算法與規則,用于對采集到的監控資料進行分析、計算和判斷,進而生成名額和告警資訊。

1. 異常檢測算法

異常檢測算法是指對采集到的監控資料進行處理和計算的算法,識别出異常情況,主要用于監測裝置、傳感器和其他IOT節點的狀态和性能。常見的異常檢測算法包括:

  1. 基于統計的異常檢測算法:該算法基于統計學原理,将各種監控名額進行分析和比較,識别出與正常情況不符的資料點。例如,可以計算線上故障裝置的曆史資料平均值和标準差,然後使用均值加減3倍标準差作為異常檢測的門檻值,超過該門檻值的資料點将被視為異常資料。
  2. 基于機器學習的異常檢測算法:該算法利用機器學習技術對監控資料進行分析和模組化,進而識别出與正常情況不符的模式和規律。例如,可以使用聚類算法對監控資料進行分類,然後使用異常檢測算法對每個類别的資料進行分析和比較,識别出異常資料。
  3. 基于規則的異常檢測算法:該算法通過預先定義一組規則,對監控資料進行檢測和分析,識别出與規則不符的資料點。例如,可以定義規則檢測裝置不可用時長資料是否超過了門檻值,如果超過了就視為異常資料。

2. 告警規則設定

告警規則需要結合業務需求,通過對監控名額進行分析和比對,判斷目前狀态是否正常,并生成相應的告警資訊的規則。告警規則需要考慮多個因素,如監控名額的變化趨勢、門檻值設定、告警級别、告警通知方式等。常用的告警規則有:

  1. 門檻值告警規則:該規則根據監控名額的門檻值來觸發警報,例如,當可配置設定SIM卡數低于門檻值時,就會觸發警報,并通知相關人員和部門。
  2. 持續時間告警規則:該規則根據監控名額的持續時間來觸發警報,例如,當線上裝置故障率超過了門檻值,并持續5分鐘以上時,就會觸發警報,并通知相關人員和部門。
  3. 模式告警規則:該規則根據監控名額的模式和趨勢來觸發警報,例如,當線上裝置的可用率在一段時間内一直處于下降趨勢時,就會觸發警報,并通知相關人員和部門。
  4. 組合告警規則:該規則是将多個告警規則進行組合,當滿足其中一個或多個規則時,就會觸發警報,并通知相關人員和部門。
  5. 定時告警規則:該規則根據時間設定來觸發警報,例如,每天下午4點時,對裝置進行一次巡檢,若發現異常,則觸發警報,并通知相關人員和部門。
  6. 機器學習告警規則:機器學習算法可以對曆史資料進行分析和模組化,根據資料模式來識别異常行為,并觸發相應的警報。例如,可以使用機器學習算法來分析裝置的使用流量,當出現異常使用流量行為時,就觸發警報并通知相關人員和部門。
  7. 基于事件的告警規則:基于事件的告警規則可以根據事件的發生來觸發警報。例如,通過對裝置狀态資料的監測,當出現裝置異常故障這些事件時,監控系統可以自動觸發警報,并通知相關人員進行故障診斷和修複。

3. 自動化告警處理算法

自動化告警處理算法是指對告警資訊進行處理和分析的算法,以減輕管理者的工作負擔。在物聯網平台中,自動化告警處理算法尤其重要,因為物聯網裝置數量龐大,監控名額繁多,手動處理告警資訊幾乎是不可能的。例如,當系統出現異常告警時,自動化告警處理算法可以自動化地進行故障定位和修複操作。

常見的自動化告警處理算法包括:

1)自動化分析算法

通過對告警資訊進行自動化分析和處理,提高告警處理的效率和準确性,減少人工處理的工作量。

  • 告警資訊的提取和解析:通過自動化算法對監控系統采集到的告警資訊進行提取和解析。例如,從告警資訊中提取出關鍵字、裝置類型、SIM卡資訊等重要資訊。
  • 告警資訊的分類:對采集到的告警資訊進行分類,以便更快速地找到相關問題。例如,将告警資訊分為硬體故障、網絡異常、卡故障、系統錯誤等類别。
  • 告警資訊的關聯分析:對不同的告警資訊進行關聯分析,找出異常的根本原因,并對告警資訊進行去重,避免重複處理同一問題。例如,将不同裝置之間的告警資訊進行關聯分析,找出故障的根本原因。
  • 告警資訊的預測分析:通過對曆史資料的分析,預測未來可能出現的故障情況。例如,通過對裝置運作資料的分析,預測未來可能出現的裝置故障情況,提前進行維護和修複。

2)自動告警處理算法

根據預設的規則自動執行一定的處理動作,如發送短信、郵件等通知方式。

  • 發送通知:根據預設的規則,自動發送通知消息,如短信、郵件等,通知相關人員或部門進行處理。
  • 執行預設操作:根據預設的規則,自動執行一些操作,如重新開機裝置、調整裝置配置等。
  • 自動調整政策:根據預設的規則,自動調整監控政策,例如調整監控門檻值等。
  • 自動忽略告警:根據預設的規則,自動判斷告警是否需要處理,如果不需要則忽略。
  • 自動關閉告警:根據預設的規則,自動關閉已經處理完畢的告警。

六、告警通知的實作

告警系統發現問題并生成告警時,告警通知子產品會自動觸發,并将告警資訊通知給相關人員和部門,以便及時采取措施解決問題。以物聯網移動網絡通信服務平台為例,當監控系統發現問題時,告警通知子產品會自動觸發并發送告警通知,具體步驟如下:

1)告警生成:監控系統檢測到異常情況并生成告警資訊。

3)通知方式選擇:告警通知子產品根據使用者設定的通知方式,選擇合适的方式通知相關人員。例如,對于緊急的告警,可以通過短信或電話通知負責人員;對于普通的告警,可以通過郵件或即時通訊工具(企業微信或釘釘等)通知相關人員,低級别告警則在大螢幕上進行展示即可。

  • 郵件通知:将告警資訊通過郵件發送給相關人員或部門。該方式适用于需要及時通知并且資訊量較大的告警情況。
  • 短信通知:将告警資訊以短信的形式發送給相關人員或部門。該方式适用于需要緊急通知但資訊量較少的告警情況。
  • 語音電話通知:将告警資訊通過語音電話形式通知相關人員或部門。該方式适用于需要緊急通知但又不能立即檢視資訊的告警情況。
  • 微信/釘釘/企業微信等即時通訊工具通知:将告警資訊通過即時通訊工具發送給相關人員或部門。該方式适用于需要及時通知且友善處理的告警情況。
  • 大螢幕展示:将告警資訊以可視化的形式展示在大螢幕上,友善相關人員實時了解監控情況。
  • 應用内通知:當監控系統産生告警資訊時,可通過應用内通知的方式快速通知相關人員,并提供詳細的告警資訊。

4)通知内容生成:告警通知子產品生成告警通知内容,并将告警資訊、裝置資訊、時間等關鍵資訊包含在通知中,以便相關人員了解問題的具體情況。

5)通知發送:通過自定義規則,告警通知子產品将通知發送給預設的接收人員,同時記錄發送時間、發送狀态等資訊,友善後續跟進和處理。

七、警報資訊處理

對已經發出來的告警資訊進行處理以及記錄處理的内容,可以讓管理者清晰了解每個告警的處理狀态和處理過程,幫助管理者更好地管理和維護系統。

1. 告警資訊的處理

當一個告警被觸發并且通知給管理者後,管理者需要對這個告警資訊進行處理。這個處理過程包括以下幾個步驟:

  1. 分析告警資訊:管理者需要對告警資訊進行分析,了解告警的來源、告警等級以及影響範圍等,以便更好地判斷告警的緊急程度和處理方法。
  2. 判斷告警的處理方法:根據告警的緊急程度和影響範圍,管理者需要判斷告警的處理方法。如果告警比較緊急且影響範圍較大,管理者需要立即采取措施處理告警;如果告警比較普通且影響範圍較小,管理者可以在合适的時間進行處理。
  3. 處理告警:管理者需要采取措施對告警進行處理。具體措施包括重新啟動裝置、更換已配置設定的SIM卡、修改配置等等。處理完成後,管理者需要記錄處理的内容,以便後續的跟蹤和分析。

2. 處理記錄的跟蹤

在物聯網移動網絡通信服務平台中,每個告警資訊都應該有相應的處理記錄,以便管理者追蹤告警的處理情況。處理記錄的跟蹤包括以下幾個方面:

1)記錄告警的處理過程

管理者需要記錄告警的處理過程,包括采取的措施、處理時間、處理結果等等。這些記錄可以幫助管理者了解告警的處理情況和處理效果。

2)記錄告警的處理人員

管理者需要記錄處理告警的人員資訊,包括處理人員的姓名、工号、聯系方式等等。這些記錄可以幫助管理者了解告警的處理責任人和責任區域。

3)記錄告警的處理狀态

管理者需要記錄告警的處理狀态,包括告警的開始時間、結束時間、處理狀态等等。這些記錄可以幫助管理者了解告警的處理狀态和處理效率。

  • 未處理:當監控系統接收到告警資訊後,還沒有進行任何處理,此時告警狀态為未處理狀态。
  • 進行中:當管理者開始處理告警資訊時,告警狀态會被設定為進行中。此時,管理者正在對告警資訊進行分析和處理。
  • 已解決:當管理者處理告警資訊後,确定問題已經得到解決,告警狀态将被設定為已解決狀态。
  • 誤報:當告警資訊被判定為誤報時,告警狀态會被設定為誤報狀态。
  • 忽略:當管理者認為告警資訊不需要被處理時,可以将告警狀态設定為忽略狀态。

4)記錄告警的處理結果

管理者需要記錄告警的處理結果,包括處理結果的有效性、處理結果的影響範圍等等。這些記錄可以幫助管理者了解告警處理的情況,追蹤問題的解決過程,并為未來的處理提供參考。對于重要的告警事件,還可以向相關人員發送告警處理的結果,以便及時通知相關人員。

  • 告警處理結果描述:管理者需要描述告警的處理結果,包括解決方案、處理過程等。
  • 處理結果狀态:管理者需要記錄處理結果的狀态,如已解決、進行中等。
  • 處理人員:記錄處理告警的人員,以便追蹤問題的處理過程。
  • 處理時間:記錄告警處理的時間,以便追蹤問題的解決過程。
  • 處理影響範圍:記錄告警處理的影響範圍,以便管理者評估問題的嚴重程度,并為未來的處理提供參考。

八、系統界面設計

在物聯網移動網絡通信服務平台中,監控告警系統的系統界面通常包括以下功能子產品:

1)告警設定子產品

用于設定告警的規則和處理方式,如設定告警的級别、觸發條件、告警通知方式、告警的處理方式等。

2)告警清單子產品

包括目前所有的告警資訊以及過去所有發生的告警資訊,包括告警等級、告警類型、告警内容、告警時間等資訊。

  • 管理者通過快速浏覽目前所有的告警資訊,并進行快速的定位和處理。
  • 管理者通過檢視曆史告警的記錄,并了解告警的處理情況和處理結果。

3)告警詳情子產品

展示選中告警的詳細資訊,包括告警的發生時間、告警的影響範圍、告警的處理情況等資訊。管理者可以通過該子產品深入了解告警的具體情況,進而更好地制定解決方案。

4)告警處理子產品

用于處理已經發生的告警,通常在告警詳情頁面進行處理。管理者可以通過該子產品對告警資訊進行處理,包括告警确認、告警配置設定、告警處理進展跟蹤等。同時,管理者也可以将處理結果記錄在該子產品中,便于後續的跟蹤和分析。

5)告警統計子產品

對所有告警資訊進行統計分析,包括告警級别、告警類型、裝置類型、告警時間、告警内容等等。通過該子產品來了解告警情況的總體概括,同時也為監控系統的改進和優化提供資料支援。

  • 總覽界面:展示系統中的所有告警資訊,以及告警的處理情況和處理結果,并按照告警級别、告警類型等分類。
  • 資料可視化分析界面:結合具體的監控告警名額,通過圖表的形式展示具體告警資料的趨勢和變化,例如曆史告警故障裝置趨勢、曆史故障SIM卡分布等。

6)系統配置子產品

用于對監控告警系統權限進行配置和管理。管理者可以通過該子產品對系統的使用者、權限、日志等進行管理,確定系統的安全和穩定運作。

本文由 @産品@Devin 原創釋出于人人都是産品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協定。

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。

繼續閱讀