运维与容灾
调优带来速度;运维让你活着。本节是 处置手册 —— 什么会坏、坏了什么样、究竟该怎么办。
- Cluster Standby(Premium) —— 无延迟惩罚的 HA:快照只在备节点、原地身份切换、跨 AZ 热备。
- 灾难恢复 —— 从快照恢复、日志回放,以及第 4 节点异步备份。
- 备份策略 —— 归档到持久化对象存储,以及给备份再做备份。
- 故障处置手册 —— 节点、网络、磁盘、快照、确定性、客户端、人为失误、资源耗尽与跨 AZ 场景。
故障模式速查
Section titled “故障模式速查”| 场景 | 数据丢失 | 可用性 | 处置 |
|---|---|---|---|
| 单 follower 崩溃 | 无 | 无(quorum 仍在) | 重启;自动追赶 |
| 单 leader 崩溃 | 未提交消息 | 短暂(选举) | 等待自动选举;重启节点 |
| 少数派崩溃 | 无 | 无 | 尽快重启以恢复容错能力 |
| 多数派 / 失去 quorum | 未提交消息 | 完全不可用 | 手动:恢复 quorum,再快照 + 日志 |
| 全节点崩溃 | 可能 | 完全不可用 | 冷启动;回放快照 + 日志;否则用外部备份 |