Geotrellis-spark-hbase-json

2023-04-08 19:06:28

背景概述

应老板要求，指定我去搞定公司影像数据切片、存储至hbase后发map服务。数据处理方面，公司采用了Geotrellis-spark-ETL架构，之前处理好的数据一直存储到HDFS或者Accumulo中。鉴于处理后的数据产生太多小文件，对公司集群有压力，而Accumulo又是小众化，相应的开发，维护等等方面的资料奇缺，性能也不理想，所以老板考虑将数据全部迁移到hbase中。

过程

接到任务后，其实有些懵逼的：一，我本人之前并没有接触到hbase，毫无经验可谈；二，Geotrellis官方文档中也没有hbase相关资料；三，hbase的资料，网上一大堆，spark-hbase的资料也有，但是Geotrellis-spark-ETL-hbase的没有啊。

没办法，硬着头皮接下任务。仔细分析了一下，将这个任务拆分为两部分：数据处理和发map服务，其中数据处理是基础，只有将入口的数据处理成公司业务需求的所需数据，才能使用这些数据发服务。

数据处理方面，最关键的就是数据输入输出格式，后端格式的参数配置，采用json文件。

之前的json

Input.json:

[{

"format": "multiband-geotiff",

"name": "landsat",

"cache": "NONE",

"backend": {

"type": "hadoop",

"path": "hdfs://feiwei.node1:8020/geotrellis/gdal/r-g-n-rasters/"

}

}]

Output.json:

{

"backend": {

"type": "hbase",

"path": "http://feiwei.node1:60020/",

"profile": "hbase-emr"

"reprojectMethod": "buffered",

"cellSize": {

"width": 256.0,

"height": 256.0

"tileSize": 256,

"pyramid": true,

"resampleMethod": "bilinear",

"keyIndexMethod": {

"type": "zorder",

"temporalResolution": 86400000

"layoutScheme": "zoomed",

"crs": "EPSG:3857",

"maxZoom": 13

}

Backend-profiles.json:

{

"backend-profiles": [{

"name": "hbase-gis",

"type": "hbase",

"zookeepers": "feiwei.node6:2181",

"instance": "hbase",

"user": "root",

"password": "secret"

}]

}

第一次修改

Input.json:

Geotrellis-spark-hbase-json

Output.json:

Geotrellis-spark-hbase-json

Backend.profiles.json：

Geotrellis-spark-hbase-json

第一次修改json后，报错：

Geotrellis-spark-hbase-json

之后的修改

多次修改，任然没有解决问题，在一次回头看源码的过程中却发现了其中缘由。

正确的配置：

Input.json：

Geotrellis-spark-hbase-json

Output.json：

Geotrellis-spark-hbase-json

Backend-profiles.json:

Geotrellis-spark-hbase-json

三、

历经十几次测试，修改，调整，最终将数据处理部分搞定，本篇算是记录一下Geotrellis-hbase-json吧。

Geotrellis-spark-hbase-json

之前的json

第一次修改

之后的修改

正确的配置：

三、

继续阅读

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开

【分类算法】什么是分类算法定义分类与聚类分类过程方法

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

浅谈企业活动中进行数据分析的重要性

ubuntu14.04下安装hbse1.0.1.1

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark