Uber大型分布式系统可靠性运维实践( 九 )

2019-07-19

为什么没有针对此用例进行自动化测试？ ->因为没有测试帐户很难测试。

为什么没有测试帐户？ ->因为这个系统还不支持。

结论：该问题暴露出了系统没有测试帐户的问题。建议为系统添加测试帐户支持。在此之后，所有类似的代码必须都要编写自动化测试。

事件审查是事后审查的重要附带工具。尽管很多团队在事后进行彻底的工作，其他团队可以从额外事件中接收教训，并进行预防性改进的改善。团队也必须承担责任并有义务改进该事件反应的系统级问题。

对于那些认真对待可靠性的组织而言，最严重的事件会得到经验丰富的工程师的审核和挑战。还应该提供组织级工程管理，以提供授权以完成修复。特别是当这些修复非常耗时并干扰其他工作时。强大的系统不是一夜之间构建的，它们必须通过连续迭代构建完善。从事故中学习，修复，改进，持续改进文化必须倡导！

故障转移演练、计划停机、容量规划及黑盒测试

有一些常规活动需要大量投资，但对于保持大型分布式系统的正常运行至关重要。

推荐阅读

上一篇：晒太阳真的可以杀菌、除螨虫吗？你晒被子的方式可能一直都做错了

下一篇：台风“丹娜丝”形成，将在浙江近海北上，会给我国带来什么影响？