Uber大型分布式系统可靠性运维实践( 三 )
监控体系
监控是运维眼睛 。 要了解成千上完的系统是否正常运行 , 就要靠监控系统来实现 。 监控系统中 , 收集完整关键的系统监控指标至关重要 。 对于分布在各个服务器、和数据中心上运行的分布式系统 , 确定监控指标和阈值不是一件容易的事情 。
基础设施健康监控:如果一个或多个服务器/虚拟机负载过大 , 则分布式系统的某些部分服务可能会降级 。 对服务器运行状况统计监控的指标有: CPU利用率 , 内存使用情况、硬盘占用 。 大多数监控系统都内置这些基本监控项目并且支持自动扩展实例 。 优步也有专门的核心基础设施团队 , 提供开箱即用的基础设施监控和警报 。 无论使用什么架构的监控都要能知道那些实例是红色关键设施 , 或者那些服务是关键的不容忽视的信息 。
服务运行状况监控:流量 , 错误 , 延迟 。 这个监控指标集用来回答\"这个后端服务是否健康\"的问题 。 通过观察到达终端的流量 , 错误率和终端延迟等事项都可以提供有关服务健康状况的有价值的信息 。 可以对这些指标创建仪表图 。 在构建新服务时 , 通过使用正确的HTTP响应映射并监视相关代码可以对系统有很多了解 。 比如 , 可以通过4XX来确定是客户端错误 , 5XXX来确认是服务器段错误 。
推荐阅读
- 单机|游戏推荐:当前八款最热门的大型单机,都是不容错过的精品游戏
- ubisoft|《刺客信条:无限》确认为大型在线网游!Ubisoft强调将不会是免费制!
- 梦幻西游|梦幻西游:前脚呐喊冲击16级舍利子!后脚大型合宝石翻车现场?
- 卡比兽|《宝可梦》关都华丽大型庆典第二轮,以及小遥与哈利的对战!
- 皇牌空战|画质能达到以假乱真的大型游戏,你会感兴趣
- 和平精英|鲨鱼哟超级王牌19星登顶无敌战神,官宣创建大型俱乐部C4!
- 碧蓝航线|碧蓝航线2021年大型投票活动预告 新一轮画师内卷大战即将开启
- 剑网3|剑网3:2019年大型818被铲出,女主简直无底线!
- 阴阳师|阴阳师5周年大型主题活动奖励汇总 划分优化合理 解锁犬神新皮肤
- 碧蓝航线|碧蓝航线9月9日改建更新总结 重樱大型活动预热 吾妻开追赶系统