Uber大型分布式系统可靠性运维实践( 八 )

事后审查和持续改进

怎么告诉团队如何处理宕机的问题?怎么跟进后续处理?你是否花费大量精力进行后续工作 , 是要要暂停业务进行系统级修复?

正确规范的时候处理事保障系统稳定的基础 。 一个好的时候处理必须无可挑剔的贯穿始终 。 优步事后模板随着时间的推移不断发展完善 , 包括事件摘要 , 影响概述 , 事件发展时间表 , 主要原因分析 , 经验教训以及详细的后续跟进事项构成:

良好的事后调查需要深入挖掘时间发生的根本原因并提出改进措施 , 以便后续可以预防 , 迅速的响应、定位、恢复该类故障 , 以尽最大可能减轻故障导致的服务宕机和损失 , 最后做到规避此类故障的发生 。 深入挖掘可以使用\"5个为什么\"的问询方法得出更有意义的结论 。 我们来举个例子:

为什么会出现问题? -> 提交的代码中出现了一个bug 。

为什么bug没有被捕捉到?-> 代码审查员没有注意到代码更改可能导致了该问题 。

为什么必须要代码审查员来捕获该错误? ->因为没有针对此用例的自动测试 。

推荐阅读