Apache Gora介紹介紹特點缺點

2021-11-07 02:19:52

雖然目前市面上有很多不錯的關系資料庫的orm架構，但是基于資料模型的架構如jdo還是有一些不足，如對于列資料模型的存儲與持久化。gora正好彌補了這個問題，它能使使用者很容易對大資料時行記憶體模組化與持久化，而且支援hadoop來對大資料進行分析。

gora就是一個大資料的表示與持久化架構，它有如下特點

資料持久化：它可以對列資料進行持久化，如hbase,cassandra,hypertable; key-value資料進行持久化，如voldermort,redis等，sql資料庫進行持久化，如mysql,hsqldb，也可以對檔案進行hdfs存儲。

資料通路：可以使用java api對資料進行輕松的通路

索引：可以持久化對象到lucene或者solr中去，可以使用gora api來進行查詢

分析：可以使用apache pig,hive,cascading來對資料進行分析

mr的支援：原生支援hadoop的mr架構，這個已經被用在nutch 2.0上了

支援使用pig,lucene,hive等針對資料進行持久化，索引和分析工作

目前除nutch2外，在其他開源産品中使用gora的好像沒有看到

nutch2系列通過gora對存儲層進行了擴充，可以選擇使用hbase、accumulo、cassandra 、mysql 、datafileavrostore、avrostore中任何一種來存儲資料，但其中一些并不成熟。

目前gora還亟待改進。對于追求性能極緻的朋友來說，nutch2.x還不穩定，建議使用nutch1.x，利用hdfs和mapreduce的資料本地化及天然的并行性，可以優化到非常快的速度。

繼續閱讀