本文會着重介紹一下YCSB測試遠端完全分布式叢集的操作差異。雖然網上有很多介紹YCSB測試HBase的文章,但都是針對本地HBase僞分布式叢集的。大家都知道,稍微正式一些的壓測都會要求測試用戶端與目标叢集分離部署,而且僞分布式叢集通常不會在生産環境下使用,本身也沒有太大的壓測意義。
本文隻講一個很簡單的問題,YCSB對HBase叢集的測試。雖然網上有很多介紹YCSB測試HBase的文章,但都是針對本地HBase僞分布式叢集的。大家都知道,稍微正式一些的壓測都會要求測試用戶端與目标叢集分離部署,而且僞分布式叢集通常不會在生産環境下使用,本身也沒有太大的壓測意義。本文會着重介紹一下壓測遠端HBase完全分布式叢集的不同之處。
YCSB是Yahoo開源的性能測試工具,支援很多種類的NoSQL資料庫測試,這裡既包括了經典的HBase/Cassandra/MongoDB,也有近兩年新推出的Spanner/Kudu等。此外,YCSB最大的特點是其靈活性,對于尚未納入官方支援的NoSQL資料庫,可以快速進行二次開發。如果你正在進行NoSQL資料庫選型或者研發一款定制版Nosql資料庫,那麼YCSB一定是你居家旅行必備良藥。
二次開發工作主要是com.yahoo.ycsb.DB的基礎上定義自己的接口實作。DB是一個抽象類,定義了NoSQL資料庫的5類典型操作,包括insert/update/delete/read/scan。你需要為自己的Nosql實作該上述方法。當然還有一些初始化(init)和收尾工作(cleanup)也要有相應的處理。
HBase是YCSB較早支援的NoSQL資料庫,目前在主線版本上支援0.98/1.0/1.2/1.4/2.0幾個版本(後兩個版本是在2018-03-23增加的)。這些版本的主要差别在于對DB類的不同實作,閱讀源碼可以發現,在1.0版本後,DB的實作類并沒有發生變化,1.2/1.4/2.0三個版本都是直接繼承了1.0版,沒有重載任何方法。從這點上來說,Ivan認為使用其中哪個版本測試應該都是OK的。
使用YCSB進行HBase完全分布式叢集測試,主要是以下幾個步驟。
Ivan的HBase版本為1.2.6,部署HBase叢集具體步驟略去。
Ivan選擇的是YCSB0.13版本,如果使用master應該也是OK的,前文已經說過,這兩個版本中HBase的通路接口是一樣的。
執行進行編譯。
由于YCSB支援了很多NoSQL資料庫,是以在編譯時依賴的Jar包也比較多。Ivan嘗試了幾次編譯,都由于下載下傳依賴包逾時失敗,尤其是在cassandra部分。看了下maven的輸出資訊,逾時的部分都是測試相關的。是以調整指令如下
編譯順利完成。
本文的重點來了!!!很多人容易犯暈的地方。
事實上,如果YCSB與HBase僞分布式叢集合并部署時,這部分的配置是可以忽略的。YCSB通過上下文全局變量可以直接得到HBase的資訊,實作壓測。可能這就是網上很多文章并不去介紹配置的原因。
我們還是從YCSB官方文檔找答案,在0.94/0.98/1.0三個版本中給出的配置方式完全不同,仔細閱讀發現1.0版本實際上是特别針對Google BigTable的配置檔案。這由于BigTable提供了對HBase的相容API,YCSB将其作為一種NoSQL雲服務也納入了進來。但是此處的配置沒有參考意義。在1.2版本中,雖然接口代碼繼承自1.0版本,但readme中明确提到配置檔案要參考0.98版本,後續1.4/2.0的readme基本是照抄。
閱讀0.98版本的readme,發現其實設定非常簡單,我們隻需要将HBase叢集master節點下的hbase-site.xml檔案拷貝到YCSB節點的某個位置,并在稍後的指令中指定即可。
網上有的文章會提到其他配置甚至腳步檔案,這裡Ivan明确的說,隻需要hbase-site.xml,不需要其他檔案!!!
Ivan的hbase-site.xml檔案内容如下。
事實上,YCSB主要是從中讀取zookeeper的節點資訊。
Ivan将hbase-site.xml拷貝到/home/ycsb-hbase/conf(也可根據你的環境定義其他路徑)目錄下
是以相應的,請修改YCSB本地的hosts檔案,将機器名與IP的對應關系維護進去。
建立usertable表,這個是YCSB測試的前置條件,測試腳本中不會自動建立
最後一步,隻需要在指令行中增加 -cp 參數指定hbase-site.xml的路徑即可。
例如以下指令。
1)加載資料
2)執行scan測試
打完收工。
最後啰嗦一句,YCSB測試HBase完全分布式叢集的主要差異在于配置檔案,即hbase-site.xml和修改本地hosts檔案,目的是為了連接配接zookeeper叢集。
更多YCSB介紹與測試指令可參考前文 NoSQL性能測試工具YCSB-Running a Workload