跳至主要內容
操作系统学习笔记

操作系统学习笔记

文章推荐

  • 图解系统 PDF | 小林coding ⭐

SRE: Google运维解密

事后总结的意义可能更大:因为它将揭示监控系统中的漏洞。事后总结应该包括以下内容:事故发生、发现、解决的全过程,事故的根本原因,预防或者优化的解决方案。

一个监控系统应该只有三类输出:紧急警报(alert)、工单(ticket)、日志(logging)

任何需要人工操作的事情都只会延长恢复时间。一个可以自动恢复的系统即使有更多的故障发生,也要比事事都需要人工干预的系统可用性更高。


Clay小于 1 分钟操作系统