天天看点

Mysql分库分表详解一、分库分表原因:二、垂直与水平拆分三、垂直和水平拆分优缺点:

一、分库分表原因:

关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限。当单表的数据量达到1000W或100G以后,由于查询维度较多,即使添加从库、优化索引,做很多操作时性能仍下降严重。此时就要考虑对其进行切分了,切分的目的就在于减少数据库的负担,缩短查询时间。

数据库分布式核心内容无非就是数据切分(Sharding),以及切分后对数据的定位、整合。数据切分就是将数据分散存储到多个数据库中,使得单一数据库中的数据量变小,通过扩充主机的数量缓解单一数据库的性能问题,从而达到提升数据库操作性能的目的。

数据切分根据其切分类型,可以分为两种方式:垂直(纵向)切分和水平(横向)切分

二、垂直与水平拆分

  • 垂直拆分

  1. 垂直分表:也就是“大表拆小表”,基于列字段进行的。一般是表中的字段较多,将不常用的, 数据较大,长度较长(比如text类型字段)的拆分到“扩展表“。 一般是针对那种上百列的大表,也避免查询时,数据量太大造成的数据库底层的“跨页”问题。
  2. 垂直分库:垂直分库针对的是一个系统中的不同业务进行拆分,比如用户User一个库,商品Producet一个库,订单Order一个库。 切分后,要放在多个服务器上,而不是一个服务器上。为什么? 我们想象一下,一个购物网站对外提供服务,会有用户,商品,订单等的CRUD。没拆分之前, 全部都是落到单一的库上的,这会让数据库的单库处理能力成为瓶颈。按垂直分库后,如果还是放在一个数据库服务器上, 随着用户量增大,这会让单个数据库的处理能力成为瓶颈,还有单个服务器的磁盘空间,内存,tps等非常吃紧。 所以我们要拆分到多个服务器上,这样上面的问题都解决了,以后也不会面对单机资源问题。
  • 水平拆分

  1. 水平分表:针对数据量巨大的单张表(比如订单表),按照某种规则(RANGE,HASH取模等),切分到多张表里面去。 但是这些表还是在同一个库中,所以库级别的数据库操作还是有IO瓶颈。不建议采用。
  2. 水平分库:将单张表的数据切分到多个服务器上去,每个服务器具有相应的库与表,只是表中数据集合不同。 水平分库分表能够有效的缓解单机和单库的性能瓶颈和压力,突破IO、连接数、硬件资源等的瓶颈。
  3. 水平分库分表切分规则:
  • 按号段分:user_id为区分,1~1000的对应DB1,1001~2000的对应DB2,以此类推;

    优点:可部分迁移

    缺点:数据分布不均

  • HASH取模分:假设有用户表user,将其分成3个表user0,user1,user2.路由规则是对3取模,当uid=1时,对应到的是user1,uid=2时,对应的是user2。

    优点:数据分布均匀

    缺点:数据迁移的时候麻烦,不能按照机器性能分摊数据

  • 在认证库中保存数据库配置:建立一个DB,这个DB单独保存user_id到DB的映射关系,每次访问数据库的时候都要先查询一次这个数据库,以得到具体的DB信息,然后才能进行我们需要的查询操作。

    优点:灵活性强,一对一关系

    缺点:每次查询之前都要多一次查询,性能大打折扣

  • 其他方式:

    1)按照地理区域:比如按照华东,华南,华北这样来区分业务。

    2)按照时间切分,就是将6个月前,甚至一年前的数据切出去放到另外的一张表,因为随着时间流逝,这些表的数据被查询的概率变小,所以没必要和“热数据”放在一起,这个也是“冷热数据分离”。

三、垂直和水平拆分优缺点:

  • 垂直切分

     优点:

  1. 解决业务系统层面的耦合,业务清晰
  2. 与微服务的治理类似,也能对不同业务的数据进行分级管理、维护、监控、扩展等
  3. 高并发场景下,垂直切分一定程度的提升IO、数据库连接数、单机硬件资源的瓶颈

     缺点:

  1. 部分表无法join,只能通过接口聚合方式解决,提升了开发的复杂度
  2. 分布式事务处理复杂
  3. 依然存在单表数据量过大的问题(需要水平切分)
  • 水平切分

     优点:

  1. 不存在单库数据量过大、高并发的性能瓶颈,提升系统稳定性和负载能力
  2. 应用端改造较小,不需要拆分业务模块

     缺点:

  1. 跨分片的事务一致性难以保证
  2. 跨库的join关联查询性能较差
  3. 数据多次扩展难度和维护量极大

继续阅读