操作系统学习笔记

Clay约 271 字小于 1 分钟

操作系统学习笔记

文章推荐

图解系统 PDF | 小林coding ⭐

SRE: Google运维解密

事后总结的意义可能更大：因为它将揭示监控系统中的漏洞。事后总结应该包括以下内容：事故发生、发现、解决的全过程，事故的根本原因，预防或者优化的解决方案。

一个监控系统应该只有三类输出：紧急警报（alert）、工单（ticket）、日志（logging）

任何需要人工操作的事情都只会延长恢复时间。一个可以自动恢复的系统即使有更多的故障发生，也要比事事都需要人工干预的系统可用性更高。

变更管理的最佳实践是使用自动化来完成以下几个项目：采用渐进式发布机制、迅速而准确地检测到问题的发生、当出现问题时，安全迅速地回退改动。

监控系统的4个黄金指标分别是延迟、流量、错误和饱和度。