操作系统学习笔记
约 271 字小于 1 分钟
操作系统学习笔记
文章推荐
- 图解系统 PDF | 小林coding ⭐
SRE: Google运维解密
事后总结的意义可能更大:因为它将揭示监控系统中的漏洞。事后总结应该包括以下内容:事故发生、发现、解决的全过程,事故的根本原因,预防或者优化的解决方案。
一个监控系统应该只有三类输出:紧急警报(alert)、工单(ticket)、日志(logging)
任何需要人工操作的事情都只会延长恢复时间。一个可以自动恢复的系统即使有更多的故障发生,也要比事事都需要人工干预的系统可用性更高。
变更管理的最佳实践是使用自动化来完成以下几个项目:采用渐进式发布机制、迅速而准确地检测到问题的发生、当出现问题时,安全迅速地回退改动。
监控系统的4个黄金指标分别是延迟、流量、错误和饱和度。