Uber大型分布式系统可靠性运维实践( 九 )

为什么没有针对此用例进行自动化测试? ->因为没有测试帐户很难测试 。

为什么没有测试帐户? ->因为这个系统还不支持 。

结论:该问题暴露出了系统没有测试帐户的问题 。 建议为系统添加测试帐户支持 。 在此之后 , 所有类似的代码必须都要编写自动化测试 。

事件审查是事后审查的重要附带工具 。 尽管很多团队在事后进行彻底的工作 , 其他团队可以从额外事件中接收教训 , 并进行预防性改进的改善 。 团队也必须承担责任并有义务改进该事件反应的系统级问题 。

对于那些认真对待可靠性的组织而言 , 最严重的事件会得到经验丰富的工程师的审核和挑战 。 还应该提供组织级工程管理 , 以提供授权以完成修复 。 特别是当这些修复非常耗时并干扰其他工作时 。 强大的系统不是一夜之间构建的 , 它们必须通过连续迭代构建完善 。 从事故中学习 , 修复 , 改进 , 持续改进文化必须倡导!

故障转移演练、计划停机、容量规划及黑盒测试

有一些常规活动需要大量投资 , 但对于保持大型分布式系统的正常运行至关重要 。

推荐阅读