Skip to content
SRE运维进阶之路SRE运维进阶之路
github icon

操作系统学习笔记

author iconClaycalendar icon2021年5月30日category icon
  • 操作系统
timer icon大约 1 分钟

此页内容
  • 文章推荐
  • SRE: Google运维解密

# 操作系统学习笔记

# 文章推荐

  • 图解系统 PDF | 小林coding ⭐

# SRE: Google运维解密

SRE团队要承担以下几类职责:可用性改进,延迟优化,性能优化,效率优化,变更管理,监控,紧急事务处理以及容量规划与管理。

事后总结的意义可能更大:因为它将揭示监控系统中的漏洞。事后总结应该包括以下内容:事故发生、发现、解决的全过程,事故的根本原因,预防或者优化的解决方案。

一个监控系统应该只有三类输出:紧急警报(alert)、工单(ticket)、日志(logging)

任何需要人工操作的事情都只会延长恢复时间。一个可以自动恢复的系统即使有更多的故障发生,也要比事事都需要人工干预的系统可用性更高。

变更管理的最佳实践是使用自动化来完成以下几个项目:采用渐进式发布机制、迅速而准确地检测到问题的发生、当出现问题时,安全迅速地回退改动。

监控系统的4个黄金指标分别是延迟、流量、错误和饱和度。

edit icon编辑此页open in new window
上次编辑于: 2021/8/27 07:08:33
贡献者: clay-wangzhi
备案号:冀ICP备2021007336号
Copyright © 2023 Clay