什么是列簇（Family）？

列簇的特点：

1、一张表通常有一单独的列簇，而且一张表中的列簇不会超过5个。

2、列簇必须在创建表的时候定义。

3、表的列簇无法改变。

4、每个列簇中的列数是没有限制的。

5、同一列簇下的所有列会保存在一起。

6、列在列簇中是有序的。

7、列在运行时创建。

8、列只有插入后才会存在，空值并不保存。

列簇的作用

权限控制、存储以及调优都是在列族层面进行的

实际应用中，列族上的控制权限能帮助我们管理不同类型的应用：我们允许一些应用可以添加新的基本数据、一些应用可以读取基本数据并创建继承的列族、一些应用则只允许浏览数据（甚至可能因为隐私的原因不能浏览所有数据）。

重点：列簇与数据存储

对同一个行键的访问都会落在同样的物理节点上。如果表包含2个列簇，属于两个列簇的文件还是保存在相同的节点上。因此，行键和节点存在一一对应的关系。

每一列簇都会保存在自己的文件集合中。在列簇中检索某列是顺序的I/O。从2个列簇中读取数据表示需要读取HDFS中2个不同的文件和块。所有的存储设置都需要在列簇级别指定。

Region虽然是分布式操作的最小单元，但并不是存储的最小单元，在region里面，又划分了很多更小的单位进行存储，如下所示

深入理解HBASE（2）列簇与Qualifier什么是列簇（Family）？列簇的特点：列簇的作用重点：列簇与数据存储关于列簇的数量

Region由一个或者多个Store组成，每个Store保存一个ColumnFamily
每个Store又由一个memStore和多个storefile组成
memstore存储在内存中，storefile存储的HDFS上

RegionServer打开一个region的时候，会创建一个相应的HRegion对象。当这个HRegion被打开，他会为每一个表中的每一个列簇创建一个Store实例，就像用户之前创建的那样。每一个Store实例相应地有一个或者多个StoreFile实例，StoreFile是真正存储数据的文件(HFile)的（hdfs系统中对应的目录）

一个Store还会有一个Memstore。

每一个HRegionServer中的所有东西会共享一个HLog实例。（WAL实例）

hbase table中每个列簇都对应着region中的一个store，在hdfs系统中则对应着一个目录，如果列簇中尚无数据，怎该目录为空，也就是该store下还没有storefile。

关于列簇的数量

如果只有一个family，那么每一次读都会读取当前rowkey的所有数据，网络和io上会有一些损失。

如果family设置的很多那么获取每一个cell数据的优势越明显，因为io和网络都减少了

当然如果要获取的是固定的几列数据，那么把这几列写到一个family中比分别设置family要更好，因为只需一次请求就能拿回所有数据。

每一个family都会分配一个memstore，所以更多的family会消耗更多的内存。

其次,目前版本的hbase，在flush和compaction都是以region为单位的，也就是说当一个family达到flush条件时，该region的所有family所属的memstore都会flush一次，即使memstore中只有很少的数据也会触发flush而生成小文件。

--->小的文件多了就会增加compaction的几率（合并小文件）

– 目前为止HBase的列族能能够很好处理最多不超过3个列族。

对于传统关系型数据库中的一张table，在业务转换到hbase上建模时，从性能的角度应该如何设置family和qualifier呢？

最极端的，可以每一列都设置成一个family，也可以只有一个family，但所有列都是其中的一个qualifier，那么有什么区别呢？

family越多，那么获取每一个cell数据的优势越明显，因为io和网络都减少了，而如果只有一个family，那么每一次读都会读取当前rowkey的所有数据，网络和io上会有一些损失。

当然如果要获取的是固定的几列数据，那么把这几列写到一个family中比分别设置family要更好，因为只需一次请求就能拿回所有数据。

以上是从读的方面来考虑的，那么写呢？可以参考一下这篇文章：

http://hbase.apache.org/book/number.of.cfs.html

首先，不同的family是在同一个region下面。而每一个family都会分配一个memstore，所以更多的family会消耗更多的内存。

其次,目前版本的hbase，在flush和compaction都是以region为单位的，也就是说当一个family达到flush条件时，该region的所有family所属的memstore都会flush一次，即使memstore中只有很少的数据也会触发flush而生成小文件。这样就增加了compaction发生的机率，而compaction也是以region为单位的，这样就很容易发生compaction风暴从而降低系统的整体吞吐量。

第三，由于hfile是以family为单位的，因此对于多个family来说，数据被分散到了更多的hfile中，减小了split发生的机率。这是把双刃剑。更少的split会导致该region的体积比较大，由于balance是以region的数目而不是大小为单位来进行的，因此可能会导致balance失效。而从好的方面来说，更少的split会让系统提供更加稳定的在线服务。

上述第三点的好处对于在线应用来说是明显的，而坏处我们可以通过在请求的低谷时间进行人工的split和balance来避免掉。

因此对于写比较多的系统，如果是离线应该，我们尽量只用一个family好了，但如果是在线应用，那还是应该根据应用的情况合理地分配family。

1.house_hire_analysis 表中列簇total下无数据，另一张表fangyuan下有数据：

深入理解HBASE（2）列簇与Qualifier什么是列簇（Family）？列簇的特点：列簇的作用重点：列簇与数据存储关于列簇的数量

2.查看hdfs region下的内容

深入理解HBASE（2）列簇与Qualifier什么是列簇（Family）？列簇的特点：列簇的作用重点：列簇与数据存储关于列簇的数量

3. hbase console 如图：

深入理解HBASE（2）列簇与Qualifier什么是列簇（Family）？列簇的特点：列簇的作用重点：列簇与数据存储关于列簇的数量

4.put一条记录到house_hire_analysis中，并flush，flush将改动从memstore刷新到磁盘

深入理解HBASE（2）列簇与Qualifier什么是列簇（Family）？列簇的特点：列簇的作用重点：列簇与数据存储关于列簇的数量

5. hbase cosole storefile已经增加

深入理解HBASE（2）列簇与Qualifier什么是列簇（Family）？列簇的特点：列簇的作用重点：列簇与数据存储关于列簇的数量

6.新flush的kv根据策略会分别存到不同的storefiles中(最后compaction 会将这些小文件合并)

深入理解HBASE（2）列簇与Qualifier什么是列簇（Family）？列簇的特点：列簇的作用重点：列簇与数据存储关于列簇的数量

转自：

https://www.jianshu.com/p/8ff206361c8c

http://zhb-mccoy.iteye.com/blog/1543492

深入理解HBASE（2）列簇与Qualifier什么是列簇（Family）？列簇的特点：列簇的作用重点：列簇与数据存储关于列簇的数量

什么是列簇（Family）？

列簇的特点：

列簇的作用

重点：列簇与数据存储

关于列簇的数量

继续阅读

hbase shell出现ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException

HBase 列族属性配置

史上最简单的HBase表结构分析（有图有真相）

Hbase-之架构设计(schema design)Hbase-之架构设计（schema design）

初识Hbase：第一个Hbase程序

HBASE预先分配regions的实现

HBase 实践

HBASE通过预先创建regions，来平衡数据的负载

HBase Java API使用操作例子

impala、hive、phoenix、hbase映射测试

HBase第二天：HBase的API操作，判断表存在、创建删除表、获取表中一行或指定列族数据、向表中插入数据、HBase的wordcount、自定义HBaseMapReduce、Hbase集成Hive第6章 HBase API操作

hbase thrift C++ 简单测试

Cloudera Manager HBase Thrift 接口 Go/Python客户端

Percolator Google的海量数据增量处理系统

大数据技术原理与应用（最后三天备考了！！！）

ubuntu14.04下安装hbse1.0.1.1