Uber大型分布式系统可靠性运维实践(13)
在定义SLO之后 , 下一步要做的是测量这些指标并发布报告 。 自动监控和报告SLA和SLO通常是一个复杂的项目 , 很容易为工程团队和业务确定优先级 。 工程团队不会那么感兴趣 , 他们已经有各种级别的监控来实时检测服务中断 。 另一方面 , 企业宁愿优先考虑提供功能而不会投资到不会立即产生业务影响的复杂项目 。
这就涉及到另一个主题:运营大型分布式系统的组织迟早需要投入专门的人员来确保这些系统的可靠性 , 这就是网站可靠性工程团队 。
SRE作为独立团队
网站可靠性工程起源于Google , 从2003年左右开始 , 至今谷歌已有超过1500名SRE工程师 。 随着生产环境的运营变得越来越复杂 , 需要越来越多的自动化 , 这项工作很快就会成为一项全职工作 。
快速发展的科技公司通常会在早期建立一个SRE团队 , 他们会制定自己的路线图 。 在优步 , SRE团队成立于2015年 , 其使命是随着时间的推移管理系统复杂性 。 其他公司可能会在创建专用基础架构团队时开始组建这样的团队 。 当一家公司成长可靠性阶段 , 跨团队的工作需要耗费大量工程师的精力 , 是时候建立一个专门的团队了 。
推荐阅读
- 单机|游戏推荐:当前八款最热门的大型单机,都是不容错过的精品游戏
- ubisoft|《刺客信条:无限》确认为大型在线网游!Ubisoft强调将不会是免费制!
- 梦幻西游|梦幻西游:前脚呐喊冲击16级舍利子!后脚大型合宝石翻车现场?
- 卡比兽|《宝可梦》关都华丽大型庆典第二轮,以及小遥与哈利的对战!
- 皇牌空战|画质能达到以假乱真的大型游戏,你会感兴趣
- 和平精英|鲨鱼哟超级王牌19星登顶无敌战神,官宣创建大型俱乐部C4!
- 碧蓝航线|碧蓝航线2021年大型投票活动预告 新一轮画师内卷大战即将开启
- 剑网3|剑网3:2019年大型818被铲出,女主简直无底线!
- 阴阳师|阴阳师5周年大型主题活动奖励汇总 划分优化合理 解锁犬神新皮肤
- 碧蓝航线|碧蓝航线9月9日改建更新总结 重樱大型活动预热 吾妻开追赶系统