跳至主要內容

操作系统学习笔记

Clay操作系统约 271 字小于 1 分钟

操作系统学习笔记

文章推荐

  • 图解系统 PDF | 小林coding ⭐

SRE: Google运维解密

事后总结的意义可能更大:因为它将揭示监控系统中的漏洞。事后总结应该包括以下内容:事故发生、发现、解决的全过程,事故的根本原因,预防或者优化的解决方案。

一个监控系统应该只有三类输出:紧急警报(alert)、工单(ticket)、日志(logging)

任何需要人工操作的事情都只会延长恢复时间。一个可以自动恢复的系统即使有更多的故障发生,也要比事事都需要人工干预的系统可用性更高。

变更管理的最佳实践是使用自动化来完成以下几个项目:采用渐进式发布机制、迅速而准确地检测到问题的发生、当出现问题时,安全迅速地回退改动。

监控系统的4个黄金指标分别是延迟、流量、错误和饱和度。