程序员职场:3 大原则让你的编程之路越走越顺,新手来了解一下( 九 )

三、运营的世界里不可预测

1、对机器的不信任

机器故障时有发生 , 如果服务存在单点问题 , 故障时 , 则服务将完全不可用 , 而依赖人工的恢复是不可预期的 , 对此 , 可通过以下措施解决 。

(1)容灾部署

即至少有两台以上的机器可以随时对外提供服务 。

(2)心跳探测

用于监控机器是否可用 , 当机器不可用时 , 若涉及到主备机器的 , 应做好主备机器的自动切换;若不涉及到主备的 , 禁用故障机器对外提供服务即可 。

2、对机房的不信任

现实生活中 , 整个机房不可用也是有发生过的 , 如2015年的天津滨海新区爆炸事故 , 导致腾讯在天津的多个机房不能对外提供正常服务 , 对此采取的措施有:

(1)异地部署

不同IDC、不同城市、不同国家等部署 , 可用避免整个机房不可用时 , 有其他机房的机器可以对外提供服务 。

推荐阅读