Uber大型分布式系统可靠性运维实践( 六 )
何时发出警报是一个很纠结的问额提 。 警报太少可能会漏掉一些有影响力的中断 , 警告太多可能会导致大量误报干扰正常值守和美梦!在调整告警阈值时 , 跟踪和分类告警项 , 测量信噪比非常重要 。 通过告警和标记它们是否可操作 , 然后采取措施减少不需操作的警报是实现可持续的随叫随到轮换的一个很好的一步 。
维尔纽斯的优步开发工具团队构建了整齐的随叫随到的工具 , 可以用它来注释告警并可视化上传调度 。 团队每周都会对最后一次呼叫班次进行审查 , 分析痛点并花一些时间来改善呼叫体验 , 一周又一周 。
宕机和事故管理流程
想象一下:你是本周的值守工程师 。 手机告警会在半夜唤醒你 。 你检查是否发生了生产宕机 。 哦 , 哦 。 系统的一部分服务已经down了 。 怎么办?监控和告警变得非常真实 。
对于小型系统而言 , 宕机可能不是那么重要 , 因为呼叫工程师可以知道正在发生的事情以及原因 。 它们通常易于理解并容易解决 。 对于具有多个(微)服务的复杂系统 , 许多工程师将代码通过DevOps 栈Push生产环境 , 仅仅为了确定可能问题的位置就有足够的挑战性 。 有一些标准流程可以帮助解决这个问题 , 这会带来巨大的变化 。
推荐阅读
- 单机|游戏推荐:当前八款最热门的大型单机,都是不容错过的精品游戏
- ubisoft|《刺客信条:无限》确认为大型在线网游!Ubisoft强调将不会是免费制!
- 梦幻西游|梦幻西游:前脚呐喊冲击16级舍利子!后脚大型合宝石翻车现场?
- 卡比兽|《宝可梦》关都华丽大型庆典第二轮,以及小遥与哈利的对战!
- 皇牌空战|画质能达到以假乱真的大型游戏,你会感兴趣
- 和平精英|鲨鱼哟超级王牌19星登顶无敌战神,官宣创建大型俱乐部C4!
- 碧蓝航线|碧蓝航线2021年大型投票活动预告 新一轮画师内卷大战即将开启
- 剑网3|剑网3:2019年大型818被铲出,女主简直无底线!
- 阴阳师|阴阳师5周年大型主题活动奖励汇总 划分优化合理 解锁犬神新皮肤
- 碧蓝航线|碧蓝航线9月9日改建更新总结 重樱大型活动预热 吾妻开追赶系统