跳转到内容

运维与容灾

调优带来速度;运维让你活着。本节是 处置手册 —— 什么会坏、坏了什么样、究竟该怎么办。

  • Cluster Standby(Premium) —— 无延迟惩罚的 HA:快照只在备节点、原地身份切换、跨 AZ 热备。
  • 灾难恢复 —— 从快照恢复、日志回放,以及第 4 节点异步备份。
  • 备份策略 —— 归档到持久化对象存储,以及给备份再做备份。
  • 故障处置手册 —— 节点、网络、磁盘、快照、确定性、客户端、人为失误、资源耗尽与跨 AZ 场景。
场景数据丢失可用性处置
单 follower 崩溃无(quorum 仍在)重启;自动追赶
单 leader 崩溃未提交消息短暂(选举)等待自动选举;重启节点
少数派崩溃尽快重启以恢复容错能力
多数派 / 失去 quorum未提交消息完全不可用手动:恢复 quorum,再快照 + 日志
全节点崩溃可能完全不可用冷启动;回放快照 + 日志;否则用外部备份