Uber大型分布式系统可靠性运维实践( 五 )
业务指标监控是优步团队在遭到因无法检测到的中断而导致严重损失的教训后建立的 。 尽管所有的服务看起来都在正常运行 , 但关键功能却出现了问题 。 这种监控对企业和业务非常有用 。 因此 , 必须在优步的可观察性技术堆栈的基础上 , 自定制了该类型的监控 。
值守呼叫、异常检测和告警
监控是用来检查系统运行状态的一个很好的工具 , 但实际中更有用的是基于监控数据的故障自动告警 。
值守on-call本身就是一个广泛的话题 , 我们希望将值守视为\"你建立它 , 拥有它\"思想的后续行动 。 建立服务的团队建立了服务 , 也就也建立了值守 。 优步团队在建立支付服务即包含了值守 。 因此 , 每当警报触发时 , 呼叫工程师都会响应并查看详细信息 。
从监控数据中发现并异常是一项艰巨的挑战 , 也是机器学习可大有作为的领域 。 有许多第三方服务可以提供异常检测 。 优步团队内部也有一个机器学习团队 , 他们为Uber用例量身定制了解决方案 。 将监控数据推送到该团队的管道就能自动获得各自置信水平的警报 。 然后决定是否应该呼叫工程师 。
推荐阅读
- 单机|游戏推荐:当前八款最热门的大型单机,都是不容错过的精品游戏
- ubisoft|《刺客信条:无限》确认为大型在线网游!Ubisoft强调将不会是免费制!
- 梦幻西游|梦幻西游:前脚呐喊冲击16级舍利子!后脚大型合宝石翻车现场?
- 卡比兽|《宝可梦》关都华丽大型庆典第二轮,以及小遥与哈利的对战!
- 皇牌空战|画质能达到以假乱真的大型游戏,你会感兴趣
- 和平精英|鲨鱼哟超级王牌19星登顶无敌战神,官宣创建大型俱乐部C4!
- 碧蓝航线|碧蓝航线2021年大型投票活动预告 新一轮画师内卷大战即将开启
- 剑网3|剑网3:2019年大型818被铲出,女主简直无底线!
- 阴阳师|阴阳师5周年大型主题活动奖励汇总 划分优化合理 解锁犬神新皮肤
- 碧蓝航线|碧蓝航线9月9日改建更新总结 重樱大型活动预热 吾妻开追赶系统