一、总体介绍
官网介绍:http://www.redis.io
Redis 持久化文档:https://redis.io/docs/management/persistence/
Redis 提供了2个不同形式的持久化方式。
- RDB(Redis DataBase)
- AOF(Append Of File)
二、RDB(Redis DataBase)
2.1 官网介绍
RDB 优势:
- RDB 是一个非常紧凑的单文件时间点表示形式,用于表示 Redis 数据。RDB 文件非常适合备份。例如,您可能希望每小时存档一次 RDB 文件,最近 24 小时内每天保存一个 RDB 快照,连续 30 天。这使您可以在发生灾难时轻松地还原数据集的不同版本。
- RDB 非常适合灾难恢复,因为它是一个紧凑的单文件,可以传输到远程数据中心,或者传输到 Amazon S3(可能加密)。
- RDB 可以最大限度地提高 Redis 性能,因为 Redis 父进程为了持久化所要做的唯一工作就是 fork 一个子进程来完成所有其他工作。父进程永远不会执行磁盘 I/O 或类似操作。
- 与 AOF 相比,RDB 允许在大型数据集重启时更快。
- 在副本上,RDB 支持重启和故障转移后的部分重新同步。
RDB 劣势:
- 如果您需要将 Redis 停止工作时(例如在停电后)数据丢失的可能性降到最低,RDB 是不合适的。您可以配置不同的保存点来生成 RDB(例如,在对数据集执行至少五分钟和 100 次写操作之后,您可以设置多个保存点)。然而,您通常每隔五分钟或更长时间创建一个 RDB 快照,所以如果 Redis 因任何原因在没有正确关闭的情况下停止工作,您应该准备好丢失最近几分钟的数据。
- 为了使用子进程将数据持久化到磁盘上,RDB 需要经常执行 fork() 操作。如果数据集较大,fork() 操作可能会耗费较长时间,并可能导致 Redis 在几毫秒甚至一秒钟内停止为客户端提供服务,特别是在数据集非常大且 CPU 性能不佳的情况下。AOF 也需要执行 fork(),但频率较低,您可以调整日志重写的频率,而不会影响到持久性。
2.2 是什么
在指定的时间间隔内将内存中的数据集快照写入磁盘, 也就是行话讲的Snapshot快照,它恢复时是将快照文件直接读到内存里。
2.3 备份是如何执行的
Redis会单独创建(fork)一个子进程来进行持久化,会先将数据写入到 一个临时文件中,待持久化过程都结束了,再用这个临时文件替换上次持久化好的文件。 整个过程中,主进程是不进行任何IO操作的,这就确保了极高的性能 如果需要进行大规模数据的恢复,且对于数据恢复的完整性不是非常敏感,那RDB方式要比AOF方式更加的高效。RDB的缺点是最后一次持久化后的数据可能丢失。
2.4 Fork
- Fork的作用是复制一个与当前进程一样的进程。新进程的所有数据(变量、环境变量、程序计数器等) 数值都和原进程一致,但是是一个全新的进程,并作为原进程的子进程。
- 在Linux程序中,fork()会产生一个和父进程完全相同的子进程,但子进程在此后多会exec系统调用,出于效率考虑,Linux中引入了“写时复制技术”
- 一般情况父进程和子进程会共用同一段物理内存,只有进程空间的各段的内容要发生变化时,才会将父进程的内容复制一份给子进程。
2.5 RDB持久化流程
2.6 dump.rdb文件
在redis.conf中配置文件名称,默认为dump.rdb
2.7 配置位置
rdb文件的保存路径,也可以修改。默认为Redis启动时命令行所在的目录下
dir "/myredis/"
2.8 如何触发RDB快照;保持策略
2.8.1 配置文件中默认的快照配置
2.8.2 命令save
VS bgsave
save :save时只管保存,其它不管,全部阻塞。手动保存。不建议。
bgsave:Redis会在后台异步进行快照操作, 快照同时还可以响应客户端请求。
可以通过lastsave 命令获取最后一次成功执行快照的时间。
2.8.3.flushall命令
执行flushall命令,也会产生dump.rdb文件,但里面是空的,无意义
2.8.4 SNAPSHOTTING快照
2.8.5 Save
格式:save 秒钟 写操作次数
RDB是整个内存的压缩过的Snapshot,RDB的数据结构,可以配置复合的快照触发条件,
默认是1分钟内改了1万次,或5分钟内改了10次,或15分钟内改了1次。
禁用
不设置save指令,或者给save传入空字符串
2.8.6 stop-writes-on-bgsave-error
当Redis无法写入磁盘的话,直接关掉Redis的写操作。推荐yes.
2.8.7 rdbcompression 压缩文件
对于存储到磁盘中的快照,可以设置是否进行压缩存储。如果是的话,redis会采用LZF算法进行压缩。
如果你不想消耗CPU来进行压缩的话,可以设置为关闭此功能。推荐yes.
2.8.8 rdbchecksum 检查完整性
在存储快照后,还可以让redis使用CRC64算法来进行数据校验,
但是这样做会增加大约10%的性能消耗,如果希望获取到最大的性能提升,可以关闭此功能
推荐yes.
2.8.9 rdb的备份
先通过config get dir 查询rdb文件的目录
将*.rdb的文件拷贝到别的地方
rdb的恢复
- 关闭Redis
- 先把备份的文件拷贝到工作目录下 cp dump2.rdb dump.rdb
- 启动Redis, 备份数据会直接加载
2.9 优势
- 适合大规模的数据恢复
- 对数据完整性和一致性要求不高更适合使用
- 节省磁盘空间
- 恢复速度快
2.10 劣势
- Fork的时候,内存中的数据被克隆了一份,大致2倍的膨胀性需要考虑
- 虽然Redis在fork时使用了写时拷贝技术,但是如果数据庞大时还是比较消耗性能。
- 在备份周期在一定间隔时间做一次备份,所以如果Redis意外down掉的话,就会丢失最后一次快照后的所有修改。
2.11 如何停止
动态停止RDB:redis-cli config set save ""
save后给空值,表示禁用保存策略
2.12 总结
三、AOF(Append Only File)
3.1 是什么
以日志的形式来记录每个写操作(增量保存),将Redis执行过的所有写指令记录下来(读操作不记录), 只许追加文件但不可以改写文件,redis启动之初会读取该文件重新构建数据,换言之,redis 重启的话就根据日志文件的内容将写指令从前到后执行一次以完成数据的恢复工作。
3.2 AOF持久化流程
(1)客户端的请求写命令会被append追加到AOF缓冲区内;
(2)AOF缓冲区根据AOF持久化策略[always,everysec,no]将操作sync同步到磁盘的AOF文件中;
(3)AOF文件大小超过重写策略或手动重写时,会对AOF文件rewrite重写,压缩AOF文件容量;
(4)Redis服务重启时,会重新load加载AOF文件中的写操作达到数据恢复的目的;
;
3.3 AOF默认不开启
可以在redis.conf中配置文件名称,默认为 appendonly.aof
AOF文件的保存路径,同RDB的路径一致。
3.4 AOF和RDB同时开启,redis听谁的?
AOF和RDB同时开启,系统默认取AOF的数据(数据不会存在丢失)
3.5 AOF启动/修复/恢复
-
AOF的备份机制和性能虽然和RDB不同, 但是备份和恢复的操作同RDB一样,都是拷贝备份文件,需要恢复时再拷贝到Redis工作目录下,启动系统即加载。
-
正常恢复
- 修改默认的
appendonly no
,改为yes
- 将有数据的aof文件复制一份保存到对应目录(查看目录:config get dir)
- 恢复:重启redis然后重新加载
- 修改默认的
-
异常恢复
- 修改默认的
appendonly no
,改为yes
- 如遇到AOF文件损坏,通过
/usr/local/bin/redis-check-aof--fix appendonly.aof
进行恢复 - 备份被写坏的AOF文件
- 恢复:重启redis,然后重新加载
- 修改默认的
3.6 AOF同步频率设置
appendfsync always
始终同步,每次Redis的写入都会立刻记入日志;性能较差但数据完整性比较好
appendfsync everysec
每秒同步,每秒记入日志一次,如果宕机,本秒的数据可能丢失。
appendfsync no
redis不主动进行同步,把同步时机交给操作系统。
3.7 Rewrite压缩
3.7.1 是什么
AOF采用文件追加方式,文件会越来越大为避免出现此种情况,新增了重写机制, 当AOF文件的大小超过所设定的阈值时,Redis就会启动AOF文件的内容压缩, 只保留可以恢复数据的最小指令集.可以使用命令bgrewriteaof
3.7.2 重写原理,如何实现重写
AOF文件持续增长而过大时,会fork出一条新进程来将文件重写(也是先写临时文件最后再rename),redis4.0版本后的重写,是指上就是把rdb 的快照,以二级制的形式附在新的aof头部,作为已有的历史数据,替换掉原来的流水账操作。
no-appendfsync-on-rewrite:
如果 no-appendfsync-on-rewrite=yes ,不写入aof文件只写入缓存,用户请求不会阻塞,但是在这段时间如果宕机会丢失这段时间的缓存数据。(降低数据安全性,提高性能)
如果 no-appendfsync-on-rewrite=no, 还是会把数据往磁盘里刷,但是遇到重写操作,可能会发生阻塞。(数据安全,但是性能降低)
触发机制,何时重写
Redis会记录上次重写时的AOF大小,默认配置是当AOF文件大小是上次rewrite后大小的一倍且文件大于64M时触发。
重写虽然可以节约大量磁盘空间,减少恢复时间。但是每次重写还是有一定的负担的,因此设定Redis要满足一定条件才会进行重写。
auto-aof-rewrite-percentage:设置重写的基准值,文件达到100%时开始重写(文件是原来重写后文件的2倍时触发)
auto-aof-rewrite-min-size:设置重写的基准值,最小文件64MB。达到这个值开始重写。
例如:文件达到70MB开始重写,降到50MB,下次什么时候开始重写?100MB
系统载入时或者上次重写完毕时,Redis会记录此时AOF大小,设为base_size,
如果Redis的AOF当前大小>= base_size +base_size*100% (默认)且当前大小>=64mb(默认)的情况下,Redis会对AOF进行重写。
3.7.3 重写流程
(1)bgrewriteaof触发重写,判断是否当前有bgsave或bgrewriteaof在运行,如果有,则等待该命令结束后再继续执行。
(2)主进程fork出子进程执行重写操作,保证主进程不会阻塞。
(3)子进程遍历redis内存中数据到临时文件,客户端的写请求同时写入aof_buf缓冲区和aof_rewrite_buf重写缓冲区保证原AOF文件完整以及新AOF文件生成期间的新的数据修改动作不会丢失。
(4)1).子进程写完新的AOF文件后,向主进程发信号,父进程更新统计信息。2).主进程把aof_rewrite_buf中的数据写入到新的AOF文件。
(5)使用新的AOF文件覆盖旧的AOF文件,完成AOF重写。
3.8 优势
- 备份机制更稳健,丢失数据概率更低。
- 可读的日志文本,通过操作AOF稳健,可以处理误操作。
官网文档:
- 使用AOF Redis更持久:你可以有不同的fsync策略:根本没有fsync,每秒钟fsync,每查询fsync。在默认的每秒fsync策略下,写性能仍然很好。Fsync是使用后台线程执行的,主线程在没有Fsync正在进行的时候会努力执行写操作,所以你只能损失一秒钟的写操作。
- AOF日志是一个只能追加的日志,因此在停电时不存在寻标问题,也不存在损坏问题。即使由于某些原因(磁盘已满或其他原因),日志以写了一半的命令结束,redis-check-aof工具也能够轻松地修复它。
- Redis能够自动重写AOF在后台当它变得太大。重写是完全安全的,因为当Redis继续追加到旧文件时,一个全新的文件会用创建当前数据集所需的最小操作集产生,一旦第二个文件准备好,Redis就会切换这两个文件并开始追加到新文件。
- AOF以易于理解和解析的格式包含所有操作的一个接一个的日志。您甚至可以轻松地导出AOF文件。例如,即使您不小心使用FLUSHALL命令刷新了所有内容,只要在此期间没有执行重写日志,您仍然可以通过停止服务器、删除最新命令并重新启动Redis来保存数据集。
3.9 劣势
- 比起RDB占用更多的磁盘空间。
- 恢复备份速度要慢。
- 每次读写都同步的话,有一定的性能压力。
- 存在个别Bug,造成恢复不能。
官网文档:
- 对于相同的数据集,AOF文件通常比等效的RDB文件大。
- AOF可能比RDB慢,这取决于确切的fsync策略。一般来说,将fsync设置为每秒一次,性能仍然非常高,禁用fsync,即使在高负载下,它也应该和RDB一样快。RDB仍然能够提供更多关于最大延迟的保证,即使在巨大的写负载的情况下。
Redis < 7.0
- 如果在重写期间有对数据库的写入,AOF会使用大量内存(这些写入在内存中被缓冲,并在最后写入新的AOF)。
- 重写期间到达的所有写命令都被写入磁盘两次。
- Redis可以冻结写入,并在重写结束时将这些写入命令同步到新的AOF文件。
3.10 总结
四、总结(Which one)
4.1 、用哪个好
官方推荐两个都启用。
如果对数据不敏感,可以选单独用RDB。
不建议单独用 AOF,因为可能会出现Bug。
如果只是做纯内存缓存,可以都不用。
官网建议
- RDB持久化方式能够在指定的时间间隔能对你的数据进行快照存储
- AOF持久化方式记录每次对服务器写的操作,当服务器重启的时候会重新执行这些命令来恢复原始的数据,AOF命令以redis协议追加保存每次写的操作到文件末尾.
- Redis还能对AOF文件进行后台重写,使得AOF文件的体积不至于过大
- 只做缓存:如果你只希望你的数据在服务器运行的时候存在,你也可以不使用任何持久化方式.
- 同时开启两种持久化方式
- 在这种情况下,当redis重启的时候会优先载入AOF文件来恢复原始的数据, 因为在通常情况下AOF文件保存的数据集要比RDB文件保存的数据集要完整.
- RDB的数据不实时,同时使用两者时服务器重启也只会找AOF文件。那要不要只使用AOF呢?
- 建议不要,因为RDB更适合用于备份数据库(AOF在不断变化不好备份), 快速重启,而且不会有AOF可能潜在的bug,留着作为一个万一的手段。
- 性能建议
因为RDB文件只用作后备用途,建议只在Slave上持久化RDB文件,而且只要15分钟备份一次就够了,只保留save 900 1这条规则。
如果使用AOF,好处是在最恶劣情况下也只会丢失不超过两秒数据,启动脚本较简单只load自己的AOF文件就可以了。
代价,一是带来了持续的IO,二是AOF rewrite的最后将rewrite过程中产生的新数据写到新文件造成的阻塞几乎是不可避免的。
只要硬盘许可,应该尽量减少AOF rewrite的频率,AOF重写的基础大小默认值64M太小了,可以设到5G以上。默认超过原大小100%大小时重写可以改到适当的数值。