跳至主要內容
高级 Bash 脚本编程指南

高级 Bash 脚本编程指南

本教程内容转载自:https://github.com/LinuxStory/Advanced-Bash-Scripting-Guide-in-Chinese

感谢开源翻译!!!

Gitter chat


LinuxStory & Clay大约 5 分钟LinuxBash
优秀的技术博客 & 在线工具

优秀的技术博客 & 在线工具

技术博客

博客地址 简介
敖小剑的博客 资深码农,十九年软件开发经验,微服务专家,Service Mesh布道师,Servicemesher社区联合创始人,Dapr Maintainer
骏马金龙 运维开发,Ansible专栏:一步到位玩透Ansible 作者
https://lework.github.io/
杜屹东的博客 亚马逊解决方案架构师、前阿里工程师,全栈、devops
苏易北 公有云从业者,坐标深圳。Go / Python / Shell / C,专注云计算虚拟化领域相关实践
mrhope 物理专业的大佬,vuepress-theme-hope主题作者
二丫讲梵 博客朋友李启龙的博客,内容十分优质,国内最全的nexus系列文档
willseecloud 优秀的运维笔记
张种恩的技术小栈
Java 全栈知识体系
CTC的运维学习笔记
Find the Best Programming Courses & Tutorials

Clay大约 1 分钟技术博客
聊透监控体系

聊透监控体系

经济高速发展的今天,我们处于信息大爆炸的时代。随着经济发展,信息借助互联网的力量在全球自由地流动,于是就催生了各种各样的服务平台和软件系统。

img

由于业务的多样性,这些平台和系统也变得异常的复杂。如何对其进行监控和维护是我们 IT 人需要面对的重要问题。就在这样一个纷繁复杂地环境下,监控系统粉墨登场了。

今天,我们会对 IT 监控系统进行介绍,包括其功能,分类,分层;同时也会介绍几款流行的监控平台。


Clay大约 17 分钟监控
运维简介

运维简介

什么是运维

运维,这里指互联网运维,通常属于技术部门,与研发、测试同为互联网产品技术支撑的3大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。

​ 一个互联网产品的生成一般经历的过程是:项目立项、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。

​ 运维,本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。

​ 简单理解,研发、测试不干的活,小公司都可以归运维管。


Clay大约 3 分钟
SRE 学习路线

SRE 学习路线

SRE 工作职责

💡 要指定学习路线,首先我们要搞情况 SRE 的工作职责。

SRE(Site Reliability Engineering)站点可靠性工程是一种结合软件工程和运维运营原则的角色和方法论,旨在在系统、服务或产品的设计、开发、部署和运维过程中,采取一系列措施来确保其持续稳定运行、可靠性和可用性。

SRE/稳定性保障具体措施包括但不限于:

  1. 高可用性: 确保系统能够在大部分时间内持续提供服务,即使在出现故障或意外情况下也能够快速恢复。常见的高可用性措施包括冗余设计、故障转移、负载均衡和容错机制。
  2. 监控与警报: 设置全面的监控系统来实时跟踪关键指标、日志、事件和服务性能。监控可以包括服务器资源利用率、请求响应时间、错误率、数据库性能等。当指标超出预定的阈值时,自动触发警报通知相关团队,以便及时采取措施。
  3. 自动化平台/工具开发:利用自动化工具和流程,简化系统部署、配置管理、更新、扩容、维护和故障恢复等操作,减少人工操作的错误和复杂性,缩短故障恢复时间,提高效率和稳定性。
  4. 故障排查与问题解决: 对系统故障进行深入的分析和排查,追踪问题根因,并采取措施解决问题,以防止类似问题再次发生。
  5. 预案和演练:制定应急预案和灾难恢复计划,并定期进行演练和测试,以确保在紧急情况下能够快速响应和恢复系统正常运行。
  6. 备份与容灾恢复:制定完备的数据备份和容灾方案,确保在出现故障或灾难时,系统能够快速切换到备用设备或利用备份数据进行恢复,保证业务的连续性和数据的安全性。
  7. 容量规划: 定期评估服务的容量需求,确保系统具备足够的资源(例如计算、存储、网络等)来满足需求,避免资源瓶颈导致系统性能下降。他们必须确保服务能够应对未来的用户增长和流量峰值。
  8. 性能优化: 定期对系统进行性能分析,识别性能瓶颈,并采取措施优化系统性能,提高响应时间和吞吐量。
  9. 安全和权限控制:实施适当的安全措施,包括访问控制、身份验证、数据加密、安全审计等,以保护系统免受恶意攻击、数据泄露或未授权访问的风险。
  10. 发布/回滚策略: 参与制定发布/回滚策略,确保新版本的软件能够平稳地上线,同时减少对现有系统的影响,新版本发生问题时,能快速回滚。
  11. 文档和知识共享:记录系统的配置、架构和故障处理经验,以便团队成员之间进行知识共享和技能传承。

Clay大约 3 分钟
K8s 集群巡检

K8s 集群巡检

上次发文 K8s 无备份,不运维,文章开篇,插入了一张 K8s 集群巡检的图片,好多小伙伴私信留言,问我要开源地址。由于其通用性不高,大多数公司需要结合自身的架构情况进行不同的巡检,所以我没有开源。

今天发现有小伙伴还在群里讨论,有没有类似的工具/平台,虽然没有开源,我把其关键的 巡检指标后端核心伪代码 分享出来,供各位同行参考。


Clay原创大约 11 分钟云原生Kubernetes
2
3
4
5
...
41