天天看点

redis企业级数据备份和恢复方案

1、企业级的持久化的配置策略

在企业中,RDB的生成策略,用默认的配置基本可以满足日常需求。也可以根据业务数据量进行一定的调整:

  • rdb:

    save 60 10000:如果希望尽可能确保RDB最多丢1分钟的数据,那么尽量就是每隔1分钟都生成一个快照,对于低峰期,数据量很少,也没必要这样处理,根据业务的数据量来确定保存的策略数

  • aof

    AOF一定要打开,使用everysec策略仍然可以保持性能的客观,同样可以调整以下两个参数:

    auto-aof-rewrite-percentage 100: 就是当前AOF大小膨胀到超过上次100%,上次的两倍

    auto-aof-rewrite-min-size 64mb: 根据你的数据量来定,16mb,32mb

2、数据备份方案

通过crontab定时调度脚本去备份小时、月份的rdb文件,同时每天将服务器所有的数据发送到云服务文件存储系统上

  • 每小时备份一次数据,删除48小时前的数据
crontab -e

 * * * * sh /usr/local/redis/copy/redis_rdb_copy_hourly.sh

redis_rdb_copy_hourly.sh

#!/bin/sh 

cur_date=`date +%Y%m%d%k`
rm -rf /usr/local/redis/snapshotting/$cur_date
mkdir /usr/local/redis/snapshotting/$cur_date
cp /var/redis//dump.rdb /usr/local/redis/snapshotting/$cur_date

del_date=`date -d -hour +%Y%m%d%k`
rm -rf /usr/local/redis/snapshotting/$del_date
           
  • 每天都保留一份当日的rdb备份到一个目录,删除一个月之前的数据
crontab -e

  * * * sh /usr/local/redis/copy/redis_rdb_copy_daily.sh

redis_rdb_copy_daily.sh

#!/bin/sh 

cur_date=`date +%Y%m%d`
rm -rf /usr/local/redis/snapshotting/$cur_date
mkdir /usr/local/redis/snapshotting/$cur_date
cp /var/redis//dump.rdb /usr/local/redis/snapshotting/$cur_date

del_date=`date -d -month +%Y%m%d`
rm -rf /usr/local/redis/snapshotting/$del_date
           
  • 每天都将所有的数据发送到云服务来作备份

    阿里云、aws都提供相应的服务

3、数据恢复方案

  1. 如果是redis进程挂掉,那么重启redis进程即可,直接基于AOF日志文件恢复数据,如果配置成fsync everysec策略,那么最多丢掉一秒钟的数据
  2. 如果是redis进程所在机器挂掉,那么重启机器后,尝试重启redis进程,会尝试直接基于AOF日志文件进行数据恢复,对于AOF append-only,是顺序写入,如果AOF文件破损,那么用redis-check-aof fix即可
  3. 如果redis当前最新的AOF和RDB文件出现了丢失/损坏,那么可以尝试基于该机器上当前的某个最新的RDB数据副本进行数据恢复。需要注意的是,每次redis服务的重新启动,都会默认从aof文件中加载数据(当然aof策略是打开的前提下),就是没有aof的文件,那么也会创建一个新的aof空文件,对应的redis中的数据也会是空,也就是并不会去加载rdb中的数据,因此我们需要提前将aof关闭,然后拷贝之前我们备份的以小时为间隔的数据,重新启动redis之后会从这个rdb中加载相应的数据,如果我们再去打开aof开关,重新启动之后仍然会创建一个空的aof文件从而redis加载对应的空数据。为了解决这个问题,我们需要热修改redis的aof开关配置 config set appendonly yes,待数据全部写入aof文件之后,再重新修改真正的配置文件中的aof开关并重新启动即可(热修改只是临时的修改,配置文件不会被影响)
  4. 如果当前机器上的所有RDB文件全部损坏,那么从远程的云服务上拉取最新的RDB快照回来恢复数据
  5. 如果是发现有重大的数据错误,比如某个小时上线的程序一下子将数据全部污染了,数据全错了,那么可以选择某个更早的时间点,对数据进行恢复

继续阅读