天天看點

Apache Gora介紹介紹 特點    缺點

         雖然目前市面上有很多不錯的關系資料庫的orm架構,但是基于資料模型的架構如jdo還是有一些不足,如對于列資料模型的存儲與持久化。gora正好彌補了這個問題,它能使使用者很容易對大資料時行 記憶體模組化與持久化,而且支援hadoop來對大資料進行分析。

gora就是一個大資料的表示與持久化架構,它有如下特點

  資料持久化:它可以對列資料進行持久化,如hbase,cassandra,hypertable; key-value資料進行持久化,如voldermort,redis等,sql資料庫進行持久化,如mysql,hsqldb,也可以對檔案進行hdfs存儲 。

  資料通路:可以使用java api對資料進行輕松的通路

  索引:可以持久化對象到lucene或者solr中去,可以使用gora api來進行查詢

  分析:可以使用apache pig,hive,cascading來對資料進行分析

  mr的支援:原生支援hadoop的mr架構,這個已經被用在nutch 2.0上了

支援使用pig,lucene,hive等針對資料進行持久化,索引和分析工作

        目前除nutch2外,在其他開源産品中使用gora的好像沒有看到

        nutch2系列通過gora對存儲層進行了擴充,可以選擇使用hbase、accumulo、cassandra 、mysql 、datafileavrostore、avrostore中任何一種來存儲資料,但其中一些并不成熟。

         目前gora還亟待改進。對于追求性能極緻的朋友來說,nutch2.x還不穩定,建議使用nutch1.x,利用hdfs和mapreduce的資料本地化及天然的并行性,可以優化到非常快的速度。