跳转至

SRE站点可靠性工程师

Google定义

  1. 工程研发
  2. 应急响应

    • 监控
    • 应急事务处理
    • 事后总结
  3. 日常运维

    • 变更管理
    • 容量规划与置备
    • 性能与效率

关于SRE的工作内容,Google定义了以上三个主要内容,其是一个金字塔结构,越往上在日常工作中的占比相对越少。而且细化下来的工作内容为:

  • 实施SLO
  • 监控
  • 消除锁事
  • On-call轮值
  • 事故响应
  • 事后总结
  • 金丝雀发布
  • 配置规范
  • 流程管理

对应的理念可以总结为以下几句话:

  • 运维痛点也是软件问题
  • 以服务质量目标SLO为准绳
  • 尽量减少锁事
  • 确定本年度要自动化的工作
  • 故障解决的越快,进度就越快
  • 与开发人员同舟共济
  • 岗位虽不同,工具可统一

个人工作总结

sre mature

从事该工作所在的部门管理有5w台左右的服务器资源,组织处在上图中的第三级和第四级转型阶段。做为最初的SRE工程师,我这里的职责总结有以下几点。

各平台工具构建:这里列举几个最基础常见的工具,如:

sre monitor

  • 监控大屏:如何将最关键的信息在监控大屏显示,需在有哪些指标。
  • CMDB:构建一个动态的CMDB(基于图数据库),现网有相关数据变动时,可以快速的更新相关数据到CMDB平台。比如虚拟漂移,确保其所在的宿主机在5分钟内能更新为新的数据。在出现故障时,能通过平台工具输入设备信息,立即了解故障面信息。
  • 故障调度平台:多专业组协同时,如何确保信息能一屏同步,调度过程中确保各人查询的都是最有用的信息。各子平台的指标数据如何能接入该平台,如何输入对应的指令或描述直接返回对应的信息(chatops)。
  • 告警聚合压缩平台:主机、设备、应用出现问题时,按常规运维手段告警信息是喷涌的,如何将区量告警压缩为真正有用的几条
  • 根因智鉴平台:如何通过图数据库(关系)、日志、告警、时间等信息通过噪音、关联检测消除确认故障根因。
  • ……

sre root cause

当然还有弹性自愈平台(比如通过k8s等自调度技术实现)、趋势拟合预测(态势感知)等相关平台。

流程管理: 这里也只列举几个常见的流程,如:

  • On-call调度流程:故障等级如何定义、在多长时间该如何上升、都要有什么人参与,谁是调度第一责任人(确定将军)。
  • 故障回溯流程:在明确故障根因后,分析整个处置流程是否合理、各流程花费了多少时间、现网其他设备平台应用是否同样有潜在问题,确认下一步改进计划是什么、责任人是谁、什么时候完成,是否需要新的工具,是否需要调整监控指标等。
  • 待办跟踪流程:制定的待办在对应的时间点,有没有完成?什么原因?

架构审视: 对应的应用和平台是否有高可用?最多可以出现几节点故障。制定Chaos Monkey混沌工程验证是否真的和宣称的等级一致。通过控制最小化爆炸半径,提高系统健壮性。

工具审视: 各专业组通过什么样的工具能验证对应的问题不是出在该块。比如网络的拨测手段有哪些,延迟、流量、饱和度、错误等黄金指标是通过哪些监控手段实现的。

为哪些指标负责

sre mttr

SRE主要为上面这些指标负责,对应的指标具体的意思如下:

  • MTTF stands for mean time to failure 平均失效时间
  • MTBF stands for mean time between failures 平均无故障时间
  • MTTR stands for mean time to repair 平均修复时间
  • MTTD stands for mean time to detect
  • MTTI stands for mean time to identify 平均故障发现时间
  • MTTK stands for mean time to know 平均故障定位时间
  • MTTA stands for mean time to acknowledge
  • MTTV stands for mean time to verify
  • MTRS stands for mean time to restore service
  • MTBSI stands for mean time between service incidents
  • MDT stands for mean down time

参考链接:

  1. 系统故障的度量指标:MTTR,MTBF,MTTF
  2. What’s the Difference Between MTTR, MTTD, MTTF, and MTBF?
  3. What is MTTR? Calculation and Reduction Strategies

最终目标

sre target

SRE工作的最终目的是希望能过工具、平台、流程等结合,实现扁鹊大哥的能力。

捐赠本站(Donate)

weixin_pay
如您感觉文章有用,可扫码捐赠本站!(If the article useful, you can scan the QR code to donate))