第7章 平台運維管理
7.1 Hadoop叢集監控
大資料平台以Web圖形界面實作Hadoop叢集監控,包括大資料平台的硬體資源、軟體資源、資料資源的監控,以及整個Hadoop叢集的工作負載。主要包括以下幾個方面:
7.1.1 服務元件狀态監控
通過管理平台可以看到所有目前已安裝的服務元件的健康狀況,綠色圈表示運作狀态健康。

7.1.2 存儲與存資源監控
包括擷取存儲量、剩餘存儲量以及存儲系統整體情況資訊。如果叢集中的某台機器的磁盤或者存的使用率達到指定的閥值,系統可以通過或者短信的方式進行預警。
7.2 系統負載管理
通過管理平台可以實時看到整個平台的資源負載情況,包括叢集的CPU、叢集磁盤IO、叢集網絡IO、HDFS IO,如下圖所示:
通過對叢集運作任務的實時監測,并根據任務優先級和耗時不同對任務進行動态排程,減少出現大量任務等待和重要任務無法及時完成的可能,可以使Hadoop叢集的運作變得更加高效合理。
(1)系統根據各隊列資源的最小值配置設定叢集資源,這樣可以按照需求對各任務隊列擷取的叢集資源進行配置設定,而且不會出現叢集資源的閑置浪費。
(2)可以實作對各任務隊列擷取的叢集資源大小實時動态調整,及時保證高優先級任務所在隊列獲得更多的叢集資源。
(3)可以實作在某個任務隊列出現空閑時,将該任務隊列擷取的叢集資源自動配置設定給其他繁忙的任務隊列,以使得叢集資源利用最大化。
7.3 作業系統管理
7.3.1 磁盤性能監控
對叢集機器的硬碟進行監控,如下圖所示,詳細的展示出磁盤IO的使用率,讀寫速度,磁盤的等待時間。
7.3.2 故障快速定位
大資料平台具備完整的告警監控和故障快速定位能力。能夠将計算架構的每個作業進度、狀态、資源利用情況進行監控,并通過可視化圖形界面進行展示。
當大資料平台出現異常情況時,平台能夠通過監控系統,對伺服器節點當機等叢集異常、安全異常等異常事件進行預警、報警,并通過、短信等報警手段進行告警通知。提供預制的恢複規則和安全規則,對叢集異常進行自動修複、自動限制非安全行為的操作。
大資料平台能夠通過對告警資訊的分析,快速定位平台部出現故障的節點,對于因故障無法繼續提供伺服器的節點進行标記,将平台的作業任務自動配置設定到其他的節點上運作,同時,大資料平台采用分布式體系結構及無單點故障設計,平台任何節點的當機都不會影響平台的穩定運作和業務的正常使用。待故障節點恢複正常後,再将該節點納入平台的資源中,将作業任務配置設定到恢複後的節點上運作。
7.3.3 運作日志監控
針對每個服務元件運作的實時日志資訊可以從平台中檢視,便于在服務元件運作中斷時查找和追蹤原因。例如,我們想要檢視HBase服務元件中Mater角色的日志資訊,如下圖所示:
7.4 平台安全管理
在Hadoop 2.x中加入了Kerberos認證機制。Kerberos可以将認證的密鑰在叢集部署時事先放到可靠的節點上。叢集運作時,叢集的節點使用密鑰得到認證。隻有被認證過節點才能正常使用,防止惡意的使用或篡改Hadoop叢集的問題,確定Hadoop叢集的可靠安全。
7.5 資料品質管理
7.5.1 資料标準化
資料标準化包括資料标準制定及資料标準化處理兩個部分,資料标準制定是在專家系統業務統一規前提下,指導專家系統大資料标準,包括資料格式标準、資料交換标準、資料共享标準等;資料标準規化是指按照統一專家系統資料标準格式。将專家資訊資料進行标準化處理,生成符合專家系統資料标準要求的資訊資料。
7.5.2 資料品質檢測
根據資料品質監測規則,通過資料品質檢測引擎,對資料表中的增量資料進行掃描,調用規則算法或擴充程式進行資料品質檢測,并提供問題資料庫的建立、資料品質報告的生成、問題資料的處理、以及對問題資料的通報和回報來保證資料的品質和實效性等功能。
7.5.3 資料關聯
對采集的資料庫根據資料間的業務關聯關系實作資料的關聯,通過資料的關聯,增加實體資料的次元,将單個的資料擴充成行業資訊資源,提高資料的價值。