Uber大型分布式系统可靠性运维实践( 三 )

监控体系

监控是运维眼睛 。 要了解成千上完的系统是否正常运行 , 就要靠监控系统来实现 。 监控系统中 , 收集完整关键的系统监控指标至关重要 。 对于分布在各个服务器、和数据中心上运行的分布式系统 , 确定监控指标和阈值不是一件容易的事情 。

基础设施健康监控:如果一个或多个服务器/虚拟机负载过大 , 则分布式系统的某些部分服务可能会降级 。 对服务器运行状况统计监控的指标有: CPU利用率 , 内存使用情况、硬盘占用 。 大多数监控系统都内置这些基本监控项目并且支持自动扩展实例 。 优步也有专门的核心基础设施团队 , 提供开箱即用的基础设施监控和警报 。 无论使用什么架构的监控都要能知道那些实例是红色关键设施 , 或者那些服务是关键的不容忽视的信息 。

服务运行状况监控:流量 , 错误 , 延迟 。 这个监控指标集用来回答\"这个后端服务是否健康\"的问题 。 通过观察到达终端的流量 , 错误率和终端延迟等事项都可以提供有关服务健康状况的有价值的信息 。 可以对这些指标创建仪表图 。 在构建新服务时 , 通过使用正确的HTTP响应映射并监视相关代码可以对系统有很多了解 。 比如 , 可以通过4XX来确定是客户端错误 , 5XXX来确认是服务器段错误 。

推荐阅读