超全面Redis分布式高可用方案:哨兵机制

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 开发工作中对于分布式缓存高可用方案(搭建 Redis 缓存高可用方案),Redis 主从架构下是如何保证高可用的呢?

微信图片_20220609110241.jpg

开发工作中对于分布式缓存高可用方案(搭建 Redis 缓存高可用方案),Redis 主从架构下是如何保证高可用的呢?


我们知道 Redis Sentinel 是一个分布式系统,为 Redis 提供高可用性解决方案。那 Redis 服务部署的哨兵模式主要原理是什么,又解决了什么问题呢,于是利用时间将相关问题做了整理,相信看完这篇文章,你也可以去给别人做技术分享了。O(∩_∩)O 哈哈~


0. 问题铺垫


在讨论哨兵模式之前,我们先来看一个应用问题:Redis服务主机宕机


实际使用过程中,会出现master宕机的情况(这样会导致没有写服务,只有读服务)。那我们要保证服务的可用,就需要从其他salve节点中选取一个来作为master节点,来继续提供服务能力。


那主要的动作抽象下:


  • 将宕机的master下线


  • 找一个slave作为master


  • 通知所有的slave连接新的master


  • 全量数据或者部分数据同步

其中存在几个问题:


  • 谁来确认master宕机?(假如仅仅是网络抖动了一下,就把我宕掉么?)
  • 如何从slave中找一个master代替,谁来找?怎么找?有什么依据?
  • 修改配置后,原始的主恢复了怎么办?

其实引入哨兵机制,就可以很好的解决上述问题。

微信图片_20220609110244.png

哨兵-Redis集群

1. 什么是哨兵?


Sentinel(哨兵)是Redis 的高可用性解决方案:由一个或多个Sentinel 实例组成的Sentinel 系统可以监视任意多个主服务,以及这些主服务器属下的所有从服务,并在被监视的主服务进入下线(不可服务)状态时,自动将下线主服务器属下的某个从服务器升级为新的主服务器。


总结一下哨兵的作用:


  • 集群监控


   不断的检查master和slave是否正常运行(master存活检测、master与slave运行情况检测)


  • 消息通知


   当被监控的服务器出现问题时,向其他哨兵、客户端发送通知


  • 自动故障转移


   断开故障master与slave的连接,选取一个slave作为新master,将其他slave连接到新的master并告知客户端新的服务器地址。


注意:哨兵也是一台Redis服务器,只是不提供数据服务;通常哨兵配置的数量为单数。


2. 哨兵的工作原理


下面主要针对哨兵在进行故障转移过程中经历的三个阶段分别进行阐述。


2.1. 集群监控


step1:哨兵1连接到Redis集群


  • 发送info命令到master,并建立cmd连接;


  • 哨兵端保存哨兵状态(SentinelStatus),保存所有哨兵状态,主节点和从节点的信息;master端会记录 redis 实例的信息(SentinelRedisInstance);


  • 哨兵根据master中获取的每个slave信息,去连接每个slave,发送同样也是info命令。

微信图片_20220609110247.png

集群监控


step2:哨兵2加入进来后


  • 同样会发送info命令到master节点,并建立cmd连接;


  • 发现master中存在其他哨兵节点的信息,哨兵2中保存哨兵信息(区别与哨兵1的是它保存了哨兵1和哨兵2的2个哨兵节点信息);


  • 为了每个哨兵的信息都一致它们之间建立了一个发布订阅。为了哨兵之间的信息长期对称它们之间也会互发 ping 命令。

微信图片_20220609110249.png

集群监控


step3:哨兵3加入后


  • 同样进行哨兵1、2的动作,会发送info命令到master节点,并建立cmd连接;


  • 为了保证哨兵1-哨兵2之间的信息是同步的,建立了一个发布订阅的一个队列(可以互发ping命令)

微信图片_20220609110252.png

集群监控


小小总结一下:


  • Sentinel会向master、slave以及其他Sentinel获取状态;


  • Sentinel之间会组建“对应频道”,大家一起发布信息、订阅信息、收信息、同步信息等。


2.2. 消息通知


1)Sentinel节点会通过master/slave 节点建立的cmd连接获取其工作状态


2)Sentinel收到反馈结果之后,会在哨兵内部进行信息的互通


微信图片_20220609110255.png

消息通知

2.3. 故障转移


关于故障转移,严格来讲可划分两个步骤:故障判定故障转移


Q1:如何判断一个节点出现故障?


  • 哨兵会一直给主节点发送 publish sentinel:hello


直到主节点故障,哨兵报出 sdown,同时此哨兵还会向其他哨兵发布消息说这个主节点挂了。发送的指令是 sentinel is-master-down-by-address-port。


  • 其余的哨兵接收到指令后,主节点挂了吗?让我去看看到底挂没挂。发送的信息也是 hello。


其余的哨兵也会发送他们收到的信息并且发送指令 sentinel is-master-down-by-address-port 到自己的内网,确认一下第一个发送 sentinel is-master-down-by-address-port 的哨兵说你说的对,这个家伙确实挂了。


  • 当所有人都认为主节点挂了后就会修改其状态为 odown。


当一个哨兵认为主节点挂了标记的是 sdown,当半数哨兵都认为挂了其标记的状态是 odown。


一个哨兵认为master节点挂了称为主观下线(sdown),超半数哨兵认为master节点挂了则称为客观下线(odown)。


微信图片_20220609110258.png

Q2:如何进行故障转移?


1)首先,哨兵选举出哨兵Leader去处理故障转移


此时选举方式应用的是Raft协议,这个之前有过介绍,感兴趣的同学可以移步了解:一致性算法Raft 简易入门


2)其次,哨兵Leader从所有的slave节点找出一个作为master节点


主要的规则:


  • 选择在线的节点,pass掉已下线的节点;


  • 选择响应速度快的,pass掉响应慢的节点


  • 选择与原master断开时间短的,pass掉断开时间较长的;


假如以上优先级均一致,会考虑其他优先原则:


  • 偏移量较大


假如说 slave1 的 offset 为 50,slave2 偏移量为 55,则哨兵就会选择 slave2 为新的主节点。


  • runid偏大的


这点类似于职场中的论资排辈,也就说根据 runid 的创建时间来判断,时间早的先上位。



3)数据转移


  • 新master上任:Sentinel向新的master发送slaveof no one


  • 其他slave周知:向其他slave发送slaveof 新master IP端口


3. 总结


Redis 主从复制的作用中有这么一句话“主从复制是高可用的基石”,那实现高可用必不可少的就是哨兵和集群。


3.1 Sentinel的作用


  • 集群监控


不断的检查master和slave是否正常运行(master存活检测、master与slave运行情况检测)


  • 消息通知


当被监控的服务器出现问题时,向其他哨兵、客户端发送通知


  • 自动故障转移


断开故障master与slave的连接,选取一个slave作为新master,将其他slave连接到新的master并告知客户端新的服务器地址。


3.2 Sentinel的工作方式


  • 每个Sentinel以每秒钟一次的频率向它所知的Master,Slave以及其他 Sentinel 实例发送一个 PING 命令


  • 如果一个实例(Instance)距离最后一次有效回复 PING 命令的时间超过 down-after-milliseconds 选项所指定的值, 则这个实例会被 Sentinel 标记为主观下线。


若 Master 重新向 Sentinel 的 PING 命令返回有效回复, Master 的主观下线状态就会被移除。


  • 如果一个Master被标记为主观下线,则正在监视这个Master的所有 Sentinel 要以每秒一次的频率确认Master的确进入了主观下线状态。


  • 当有足够数量的 Sentinel(>=配置文件指定的值)在指定的时间范围内确认Master的确进入了主观下线状态, 则Master会被标记为客观下线


若没有足够数量的 Sentinel 同意 Master 已经下线, Master 的客观下线状态就会被移除。


  • 在一般情况下, 每个 Sentinel 会以每 10 秒一次的频率向它已知的所有Master,Slave发送 INFO 命令


  • 当Master被 Sentinel 标记为客观下线时,Sentinel 向下线的 Master 的所有 Slave 发送 INFO 命令的频率会从 10 秒一次改为每秒一次
相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
5天前
|
存储 缓存 NoSQL
云端问道21期方案教学-应对高并发,利用云数据库 Tair(兼容 Redis®*)缓存实现极速响应
云端问道21期方案教学-应对高并发,利用云数据库 Tair(兼容 Redis®*)缓存实现极速响应
|
13天前
|
NoSQL API Redis
在C程序中实现类似Redis的SCAN机制的LevelDB大规模key分批扫描
通过上述步骤,可以在C程序中实现类似Redis的SCAN机制的LevelDB大规模key分批扫描。利用LevelDB的迭代器,可以高效地遍历和处理数据库中的大量键值对。该实现方法不仅简单易懂,还具有良好的性能和扩展性,希望能为您的开发工作提供实用的指导和帮助。
33 7
|
1月前
|
消息中间件 架构师 数据库
本地消息表事务:10Wqps 高并发分布式事务的 终极方案,大厂架构师的 必备方案
45岁资深架构师尼恩分享了一篇关于分布式事务的文章,详细解析了如何在10Wqps高并发场景下实现分布式事务。文章从传统单体架构到微服务架构下分布式事务的需求背景出发,介绍了Seata这一开源分布式事务解决方案及其AT和TCC两种模式。随后,文章深入探讨了经典ebay本地消息表方案,以及如何使用RocketMQ消息队列替代数据库表来提高性能和可靠性。尼恩还分享了如何结合延迟消息进行事务数据的定时对账,确保最终一致性。最后,尼恩强调了高端面试中需要准备“高大上”的答案,并提供了多个技术领域的深度学习资料,帮助读者提升技术水平,顺利通过面试。
本地消息表事务:10Wqps 高并发分布式事务的 终极方案,大厂架构师的 必备方案
|
1月前
|
消息中间件 SQL 中间件
大厂都在用的分布式事务方案,Seata+RocketMQ带你打破10万QPS瓶颈
分布式事务涉及跨多个数据库或服务的操作,确保数据一致性。本地事务通过数据库直接支持ACID特性,而分布式事务则需解决跨服务协调难、高并发压力及性能与一致性权衡等问题。常见的解决方案包括两阶段提交(2PC)、Seata提供的AT和TCC模式、以及基于消息队列的最终一致性方案。这些方法各有优劣,适用于不同业务场景,选择合适的方案需综合考虑业务需求、系统规模和技术团队能力。
258 7
|
1月前
|
存储 NoSQL Java
使用lock4j-redis-template-spring-boot-starter实现redis分布式锁
通过使用 `lock4j-redis-template-spring-boot-starter`,我们可以轻松实现 Redis 分布式锁,从而解决分布式系统中多个实例并发访问共享资源的问题。合理配置和使用分布式锁,可以有效提高系统的稳定性和数据的一致性。希望本文对你在实际项目中使用 Redis 分布式锁有所帮助。
162 5
|
2月前
|
NoSQL Java 数据处理
基于Redis海量数据场景分布式ID架构实践
【11月更文挑战第30天】在现代分布式系统中,生成全局唯一的ID是一个常见且重要的需求。在微服务架构中,各个服务可能需要生成唯一标识符,如用户ID、订单ID等。传统的自增ID已经无法满足在集群环境下保持唯一性的要求,而分布式ID解决方案能够确保即使在多个实例间也能生成全局唯一的标识符。本文将深入探讨如何利用Redis实现分布式ID生成,并通过Java语言展示多个示例,同时分析每个实践方案的优缺点。
87 8
|
1月前
|
缓存 NoSQL Java
Spring Boot中的分布式缓存方案
Spring Boot提供了简便的方式来集成和使用分布式缓存。通过Redis和Memcached等缓存方案,可以显著提升应用的性能和扩展性。合理配置和优化缓存策略,可以有效避免常见的缓存问题,保证系统的稳定性和高效运行。
60 3
|
2月前
|
NoSQL 安全 PHP
hyperf-wise-locksmith,一个高效的PHP分布式锁方案
`hyperf-wise-locksmith` 是 Hyperf 框架下的互斥锁库,支持文件锁、分布式锁、红锁及协程锁,有效防止分布式环境下的竞争条件。本文介绍了其安装、特性和应用场景,如在线支付系统的余额扣减,确保操作的原子性。
43 4
|
27天前
|
存储 监控 NoSQL
Redis集群方案汇总:概念性介绍
本文介绍了Redis的三种高可用和分布式解决方案:**Redis Replication(主从复制)**、**Redis Sentinel(哨兵模式)** 和 **Redis Cluster(集群模式)**。Redis Replication实现数据备份和读写分离,适合数据安全和负载均衡场景;Redis Sentinel提供自动故障转移和监控功能,适用于读写分离架构;Redis Cluster通过分布式存储和自动故障转移,解决单点性能瓶颈,适合大规模数据和高并发场景。文中还详细描述了各方案的工作原理、优缺点及适用场景。
35 0
|
2月前
|
NoSQL 算法 关系型数据库
分布式 ID 详解 ( 5大分布式 ID 生成方案 )
本文详解分布式全局唯一ID及其5种实现方案,关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
分布式 ID 详解 ( 5大分布式 ID 生成方案 )

热门文章

最新文章