关系型数据库横向扩展的三种方法

传统的关系型数据库很难扩展，通常是纵向扩展，但到达一定程度时只能横向扩展。

数据库的横向扩展支持三种方法，即主从复制，集群和分片(sharding)。

关系型数据库横向扩展的三种方法

主从复制

主从复制(Master-slave replication)，最易配置，对应用改动最小，并可以减轻主库的负担。

主数据库可以读写，从数据库只读。最常用的场景就是实现读写分离，或业务分离，即运行报表，备份，数据仓库等应用。

这种方法的问题是主与从之间数据非完全同步，可能会读到两个不同的版本。另一个问题是，如果只有主库接受读写，那么主库迟早会过载，因此不算是真正的scale out。

不过主从库数据的延迟，有的业务是可以接受的。另外，利用一些实时复制的工具如GoldenGate，从库也是可以写的，这时可以利用从库做其它的业务，从而达到横向扩展的目的。这也算是主从复制的一个新趋势。

集群(Clustering)

集群也称为shared everything或shared disk架构。最知名的就是Oracle RAC。

1个数据库可以有多个实例，来访问共享存储上的数据库。

每一个节点都可以读写，从应用角度来看，代码无需改变。负载均衡也是自动的。

集群存在的问题包括：

* 写数据时需要内存中数据的同步，数据加速带来竞争，影响扩展性

* 难以设置和管理

* 由于存储是共享的，读操作也不能无限扩展

集群适合于读密集的应用，如数据仓库和BI。

分片(Sharding)

分区(Partition)是库内的，分片(Sharding)是库外的，也叫分表分库, 是shared nothing的架构。

Sharding即将一个大的库拆分成很多小库。如何拆和业务规则有关，可以按用户ID拆，按业务拆。如果需要Join，相关的表需要放到一个库里，避免数据库间的通讯。

Sharding也可以有两种方法，即垂直分区和水平分区。

垂直分区是按业务分，简称为分库，即不同的业务使用不同的库，互不相干。垂直分区到一定程度，也无法扩展，这时需要水平分区。

水平分区则是将一个大表拆分为小表，每个小表位于不同的库。每一个建立相同的schema。如根据主键的hash值来分区。

sharding的不足在于：

* 加大了应用代码的复杂性，需要路由到正确的shard。

* 后期增加shard需要修改应用逻辑，并需要迁移数据

* 查询和聚集(aggregation)不再简单，需要跨库联合操作

* 主数据和参照数据需要复制到所有shard，以避免跨库操作。主数据和参照数据虽然偏静态，但一旦修改，可能会有数据一致性问题。

* 跨库修改需要分布式交易处理，会限制可扩展性。因此应尽量避免。

* 单个shard的失效可能会使整个系统不可用(其实也不一定)。因此通常需要为每个shard再配置HA方案，如主从复制。

尽管有以上不足，分片对于一些大型网站还是广泛使用，如Google, eBay, Facebook, Flickr。

When the pain is great, any medicine that reduces it is good, regardless of the side effects.

这句话有点意思。

当然，还有一些其它一些新的数据库架构可以实现横向扩展，如NoSQL对于OLTP的扩展，Hadoop对于OLAP的扩展。不过已超出本文的讨论范围了。

关系型数据库横向扩展的三种方法

继续阅读

set define off关闭替代变量功能

报错：'mysql' 不是内部或外部命令，也不是可运行的程序或批处理文件。

Linxu常用命令技巧汇总

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艰难安装LDAP,SSL认证

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

MySQL的4种隔离级别？出现问题

nginx location中斜线的位置的重要性

XX系统实施过程问题总结

无组件上传图片到数据库中，最完整解决方案

【MySQL数据库】数据库索引事务1.索引2.事务

neo4j之cypher使用文档

NOSQL安全攻击

mybatis_入门程序Mybatis入门

登录plsql 报错 the account is locked --用户被锁

SequoiaDB巨杉数据库C++驱动概述