Uber大型分布式系统可靠性运维实践( 九 )
为什么没有针对此用例进行自动化测试? ->因为没有测试帐户很难测试 。
为什么没有测试帐户? ->因为这个系统还不支持 。
结论:该问题暴露出了系统没有测试帐户的问题 。 建议为系统添加测试帐户支持 。 在此之后 , 所有类似的代码必须都要编写自动化测试 。
事件审查是事后审查的重要附带工具 。 尽管很多团队在事后进行彻底的工作 , 其他团队可以从额外事件中接收教训 , 并进行预防性改进的改善 。 团队也必须承担责任并有义务改进该事件反应的系统级问题 。
对于那些认真对待可靠性的组织而言 , 最严重的事件会得到经验丰富的工程师的审核和挑战 。 还应该提供组织级工程管理 , 以提供授权以完成修复 。 特别是当这些修复非常耗时并干扰其他工作时 。 强大的系统不是一夜之间构建的 , 它们必须通过连续迭代构建完善 。 从事故中学习 , 修复 , 改进 , 持续改进文化必须倡导!
故障转移演练、计划停机、容量规划及黑盒测试
有一些常规活动需要大量投资 , 但对于保持大型分布式系统的正常运行至关重要 。
推荐阅读
- 单机|游戏推荐:当前八款最热门的大型单机,都是不容错过的精品游戏
- ubisoft|《刺客信条:无限》确认为大型在线网游!Ubisoft强调将不会是免费制!
- 梦幻西游|梦幻西游:前脚呐喊冲击16级舍利子!后脚大型合宝石翻车现场?
- 卡比兽|《宝可梦》关都华丽大型庆典第二轮,以及小遥与哈利的对战!
- 皇牌空战|画质能达到以假乱真的大型游戏,你会感兴趣
- 和平精英|鲨鱼哟超级王牌19星登顶无敌战神,官宣创建大型俱乐部C4!
- 碧蓝航线|碧蓝航线2021年大型投票活动预告 新一轮画师内卷大战即将开启
- 剑网3|剑网3:2019年大型818被铲出,女主简直无底线!
- 阴阳师|阴阳师5周年大型主题活动奖励汇总 划分优化合理 解锁犬神新皮肤
- 碧蓝航线|碧蓝航线9月9日改建更新总结 重樱大型活动预热 吾妻开追赶系统