阿里云HBase推出普惠性高可用服务,独家支持用户的自建、混合云环境集群( 四 )


case3 某媒体公司IO压力较大经常触发空间泄漏Bug , 导致空间不足集群宕机无法自愈 
以上是真实的案例 , Bug是不可避免的 , 未知Bug处理考验内核团队的技术实力 , 需要具备外科手术的能力 , 但其处理时间是不可预期的 。

云HBase主备高可用方案

故障恢复时间可预知的高可用系统 , 故障发生时可以在分钟级别恢复读写能力 。 实现方案选择经典的主备模式 , 也支持主主模式 。 备集群部署在同城的不同机房内 , 在资源层面完全隔离 , 软件可部署不同的版本 , 最大程度保持两个集群的独立性 。 从经验数据出发 , 单机房故障恢复时间的上限为1个小时 , 在这1个小时内另一个机房也发生故障的概率非常低 , 有两种情况除外:第一种是城市级灾难 , 这个需要异地容灾方案;第二种是故障源于业务流量增长 , 系统过载 , 此时的解决方案是限流或者扩容 。 这两种情况不在本文设计考虑之内 。 系统提供一键切换能力 , 不需要客户端重启 , 每一个客户端在收到切换信号时会自动完成连接的切换 , 客户端的切换是并发进行的 , 所有客户端可以在10秒内完成切换 。

高可用方案可以独立提供给自建使用 , 支持自建和云HBase混合主备 。 如果你已经拥有一个HBase集群 , 可以方便的弹出一个冗余备集群 , 备集群的建表和数据复制都是自动完成 。 当故障发生时 , 可以在控制台切换流量到备库 , 待主集群恢复后再把流量切回 。 云HBase高可用服务是一个独立的服务 , 可以看做是基于HBase之上的一个中间件 , 支持混合云是我们的设计原则 , 云上同VPC下的自建HBase、EMR HBase、云HBase可以方便的进行主备混合使用 , 对于IDC自建HBase或者它云上的HBase则需要用户自行解决网络联通 。

推荐阅读