天天看點

資料倉庫建設方案詳細:平台運維管理

第7章    平台運維管理

7.1    Hadoop叢集監控

大資料平台以Web圖形界面實作Hadoop叢集監控,包括大資料平台的硬體資源、軟體資源、資料資源的監控,以及整個Hadoop叢集的工作負載。主要包括以下幾個方面:

7.1.1    服務元件狀态監控

通過管理平台可以看到所有目前已安裝的服務元件的健康狀況,綠色圈表示運作狀态健康。

資料倉庫建設方案詳細:平台運維管理

7.1.2    存儲與存資源監控

包括擷取存儲量、剩餘存儲量以及存儲系統整體情況資訊。如果叢集中的某台機器的磁盤或者存的使用率達到指定的閥值,系統可以通過或者短信的方式進行預警。

資料倉庫建設方案詳細:平台運維管理

7.2    系統負載管理

通過管理平台可以實時看到整個平台的資源負載情況,包括叢集的CPU、叢集磁盤IO、叢集網絡IO、HDFS IO,如下圖所示:

資料倉庫建設方案詳細:平台運維管理

通過對叢集運作任務的實時監測,并根據任務優先級和耗時不同對任務進行動态排程,減少出現大量任務等待和重要任務無法及時完成的可能,可以使Hadoop叢集的運作變得更加高效合理。

(1)系統根據各隊列資源的最小值配置設定叢集資源,這樣可以按照需求對各任務隊列擷取的叢集資源進行配置設定,而且不會出現叢集資源的閑置浪費。

(2)可以實作對各任務隊列擷取的叢集資源大小實時動态調整,及時保證高優先級任務所在隊列獲得更多的叢集資源。

(3)可以實作在某個任務隊列出現空閑時,将該任務隊列擷取的叢集資源自動配置設定給其他繁忙的任務隊列,以使得叢集資源利用最大化。

7.3    作業系統管理

7.3.1    磁盤性能監控

對叢集機器的硬碟進行監控,如下圖所示,詳細的展示出磁盤IO的使用率,讀寫速度,磁盤的等待時間。

資料倉庫建設方案詳細:平台運維管理

7.3.2    故障快速定位

大資料平台具備完整的告警監控和故障快速定位能力。能夠将計算架構的每個作業進度、狀态、資源利用情況進行監控,并通過可視化圖形界面進行展示。

當大資料平台出現異常情況時,平台能夠通過監控系統,對伺服器節點當機等叢集異常、安全異常等異常事件進行預警、報警,并通過、短信等報警手段進行告警通知。提供預制的恢複規則和安全規則,對叢集異常進行自動修複、自動限制非安全行為的操作。

大資料平台能夠通過對告警資訊的分析,快速定位平台部出現故障的節點,對于因故障無法繼續提供伺服器的節點進行标記,将平台的作業任務自動配置設定到其他的節點上運作,同時,大資料平台采用分布式體系結構及無單點故障設計,平台任何節點的當機都不會影響平台的穩定運作和業務的正常使用。待故障節點恢複正常後,再将該節點納入平台的資源中,将作業任務配置設定到恢複後的節點上運作。

7.3.3    運作日志監控

針對每個服務元件運作的實時日志資訊可以從平台中檢視,便于在服務元件運作中斷時查找和追蹤原因。例如,我們想要檢視HBase服務元件中Mater角色的日志資訊,如下圖所示:

資料倉庫建設方案詳細:平台運維管理

7.4    平台安全管理

在Hadoop 2.x中加入了Kerberos認證機制。Kerberos可以将認證的密鑰在叢集部署時事先放到可靠的節點上。叢集運作時,叢集的節點使用密鑰得到認證。隻有被認證過節點才能正常使用,防止惡意的使用或篡改Hadoop叢集的問題,確定Hadoop叢集的可靠安全。

7.5    資料品質管理

7.5.1    資料标準化

資料标準化包括資料标準制定及資料标準化處理兩個部分,資料标準制定是在專家系統業務統一規前提下,指導專家系統大資料标準,包括資料格式标準、資料交換标準、資料共享标準等;資料标準規化是指按照統一專家系統資料标準格式。将專家資訊資料進行标準化處理,生成符合專家系統資料标準要求的資訊資料。

7.5.2    資料品質檢測

根據資料品質監測規則,通過資料品質檢測引擎,對資料表中的增量資料進行掃描,調用規則算法或擴充程式進行資料品質檢測,并提供問題資料庫的建立、資料品質報告的生成、問題資料的處理、以及對問題資料的通報和回報來保證資料的品質和實效性等功能。

7.5.3    資料關聯

對采集的資料庫根據資料間的業務關聯關系實作資料的關聯,通過資料的關聯,增加實體資料的次元,将單個的資料擴充成行業資訊資源,提高資料的價值。

繼續閱讀