一.大資料平台測試簡述
大資料平台測試包括2部分:基礎能力測試和性能測試
Ⅰ).基礎能力測試
- 大資料平台的基本功能和資料的導入導出對SQL任務、NoSQL任務、機器學習、批處理任務的支援
- 大資料平台是否能夠通過界面的形式友善使用者進行非運作維護,主要包括叢集的安裝、監控、配置、操作等
- 大資料平台是否能夠提供基本的安全方案
- a).是否具備認證功能以防止惡意通路和攻擊
- b).是否能夠進行細粒度的權限管理
- c).是否能夠提供審計和資料加密功能
- 大資料平台是否具備高可用的機制,防止機器的失效帶來的任務失敗以及資料丢失
- 大資料平台是否能夠支援機器快速平滑地擴充和縮容時帶來線性的計算能力
- 大資料平台是否能夠支援多個調用接口以及對SQL文法的支援情況
- 大資料平台是否能夠根據隊列、使用者的權重來細粒度地配置設定計算資源
Ⅱ).性能測試
- 基準測試:資料生成、負載選擇和明确測試名額等内容
- 性能測試:基準測試之上的擴充
二.大資料平台測試流程
Ⅰ).資料生成
BDGS: 能夠快速生成保持真實資料特性的文本、表和圖資料的資料生成工具
BDGS構造方法
- a).資料篩選:選取代表性的真實資料集和相應的模組化方法或工具
- b).原始資料處理:對真實資料采樣并模組化,提取資料特性
- c).資料生成:通過參數控制資料規模和并行度
- d).格式轉化:根據負載的輸入需求轉換生成資料的格式
Ⅱ).負載選擇
負載選擇政策: 負載需覆寫大資料處理平台的主要元件即分布式計算架構、分布式檔案系統和分布式存儲的能力
Ⅲ).測試名額
主要從性能、能耗、成本效益和可用性4個次元來測試對比平台性能
三.大資料平台測試工具
Ⅰ).平台單元件測試
測試應用單一、效率高、成本低,但無法全面衡量大資料平台性能
Ⅱ).綜合平台測試
覆寫面廣,可以較全面測試衡量大資料平台不同類型任務的性能,通用性好
測試工具 BigDataBench :
- a).概念:是一個跨系統、體系結構、資料管理 3個領域的大資料基準測試開源程式集
- b).應用領域:搜尋引擎、電子商務、社交網絡、多媒體、生物資訊
- c).負載類型:離線分析、互動式分析、線上服務、Nosql
- d).資料類型:結構化、半結構化、非結構化
Hibench
- a).概念:是一個大資料基準測試套件,可幫助評估大資料架構的速度,吞吐量和系統資源使用率
- b).測試範圍:HadoopBench、SparkBench、StormBench、FlinkBench、GearpumpBench、機器學習、網頁搜尋
- c).負載類型:實時場景、離線場景
- d).資料類型:結構化、半結構化
- e).功能子產品:對于hive:(aggregation,scan,join)、排序(sort,TeraSort)、大資料基本算法(wordcount,pagerank,nutchindex)、機器學習算法(kmeans,bayes)、叢集排程(sleep)、吞吐(dfsio)、5.0版本的流測試
TPCx-HS Kit
- a).概念:第一個标準化的大資料基準測試,旨在對Hadoop叢集進行壓力測試
- b).囊括子產品:HSGen資料生成器、HSDataCheck檢查資料集和副本的符合性、HSSort資料排序、HSValidatate排序後的資料校驗
- c).測試名額:性能、價格性能和可用性
- d).負載類型:實時場景、離線場景
BSMA
- a).概念:基于Yahoo的YCSB的大資料性能測試工具
- b).測試場景:社交網絡查詢、熱點查詢、時間線查詢
- c).負載類型:離線分析、Nosql
- d).測試名額:吞吐量、延時、可伸縮性
Ⅲ).應用領域端到端測試
可以與企業場景的實際業務場景結合,覆寫企業大資料業務的全流程模拟測試
BigBench
- a).概念:于2016年2月被TPC委員會接受以後被命名為TPCx-BB,在此之前叫BigBench;TPCx-BB性能評估标準有兩個,一是根據軟硬體性能評估,二是根據軟硬體成本效益評估
- b).測試領域:零售商
- c).負載類型:離線分析
四.大資料平台測試用例
Ⅰ).平台基準測試用例
主要是從性能的角度衡量大資料平台,包括資料生成、負載選擇和明确測試名額等内容
Ⅱ).平台性能測試用例
在基準測試的基礎上擴充測試内容,增加SQL任務測試比重