hbase 写入过程

2023-03-01 07:40:10

1.基本原理

hbase客户端通过rpc调用将put、delete数据请求提交到对应的regionserver，regionserver对请求进行处理，并将数据最终写入hfile中，进行持久化保存。

hbase为了保证随机读取的性能，所以hfile里面的rowkey是有序的。当客户端的请求在到达regionserver之后，为了保证写入rowkey的有序性，所以不能将数据立刻写入到hfile中，而是将每个变更操作保存在内存中，也就是metastore中。metastore能够很方便的支持操作的随机插入，并保证所有的操作在内存中是有序的。当metastore达到一定的量之后，会将metastore里面的数据flush到hfile中，这样能充分利用hadoop写入大文件的性能优势，提高写入性能。

由于metastore是存放在内存中，如果regionserver因为某种原因死了，会导致内存中数据丢失。所有为了保证数据不丢失，hbase将更新操作在写入metastore之前会写入到一个write ahead log(WAL)中。WAL文件是追加、顺序写入的，WAL每个regionserver只有一个，同一个regionserver上所有region写入同一个的WAL文件。这样当某个regionserver失败时，可以通过WAL文件，将所有的操作顺序重新加载到metastore中。

2.流程

整个写入顺序图流程如下：

hbase 写入过程

客户端查找对应region

客户端根据要操作rowkey，查找rowkey对应的region。查找region的过程为通过zk获取到hbase:meta表所在region。通过查找hbase:meta可以找到要更新的表每个region的startkey、endkey以及所处机器。由于hbase的rowkey有序分布在region上，所以通过每个region的startkey、endkey可以确定当前要操作rowkey的region信息。

由于通过zk、hbase:meta查找region信息比较耗时，所以客户端会缓存表的region信息。在请求region失效时，会重新加载表的region信息。
regionserver写入WAL文件

在将操作写入metastore之前,会将操作先写入到WAL文件中。WAL文件的是顺序保存操作记录的，所有每次新操作直接追加到regionserver对应的WAL文件尾部即可。
regionserver写入metastore

将操作写入到WAL之后,hbase会将操作写入到metastore中。在metastore是一个排序的跳跃表,能够保证rowkey按照hfile的顺序进行排序。执行快速查找。
regionserver最终flush入hfile

regionserver将操作写入的hfile不是同步发生的，是需要在metastore的内存达到一定的量(两种情况： 1.metastore的内存达到设置刷新值得90%，2：regionserver上所有region的metastore的内存占用量达到总内存的设置占用量，如0.4)之后，才会将metastore里面所有的操作写入到hfile中。同时会记录已经写入的操作的顺序id，便于WAL的日志清理线程删除WAL中无用日志信息。

参考文章：

hbase写路径

目前这篇文章中没有详细的介绍WAL文件的roll、clean的过程以及metastore的数据格式，接下来文章会详细的这些。

hbase 写入过程

1.基本原理

2.流程

继续阅读

hbase shell出现ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException

HBase 列族属性配置

史上最简单的HBase表结构分析（有图有真相）

Hbase-之架构设计(schema design)Hbase-之架构设计（schema design）

初识Hbase：第一个Hbase程序

HBASE预先分配regions的实现

HBase 实践

HBASE通过预先创建regions，来平衡数据的负载

HBase Java API使用操作例子

impala、hive、phoenix、hbase映射测试

HBase第二天：HBase的API操作，判断表存在、创建删除表、获取表中一行或指定列族数据、向表中插入数据、HBase的wordcount、自定义HBaseMapReduce、Hbase集成Hive第6章 HBase API操作

hbase thrift C++ 简单测试

Cloudera Manager HBase Thrift 接口 Go/Python客户端

Percolator Google的海量数据增量处理系统

大数据技术原理与应用（最后三天备考了！！！）

ubuntu14.04下安装hbse1.0.1.1