阿里云HBase推出普惠性高可用服务,独家支持用户的自建、混合云环境集群( 二 )

HBase单集群可用性

一个HBase系统包含了Zookeeper、HDFS、HBase三个组件 。 其中Zookeeper在数据和计算上都进行了冗余 , 且是一个可自愈系统 , 单节点故障可在秒级恢复 。 HBase对Zookeeper是轻依赖 , 一般不会出现大问题 。 HDFS是一个Master-Slave模式的分布式文件系统 , 存在中心节点Namenode , Namenode支持以HA方式部署 , 单Namenode故障可秒级恢复 , 在两个NN都宕机的情况下依然可以重启自愈 , 但恢复时间取决于回放日志大小 , 在分钟级别 。 数据多副本冗余 , Datanode单节点宕机不中断服务 。 HBase也是一个Master-Slave模式的分布式系统 , 其中HMaster不参与读写路径 , 因此HMaster宕机不中断服务 , 但长期宕机会影响负载均衡、Failover等能力 , HMaster支持HA方式部署 。 HBase还有一个单点是Meta服务 , 它随机选择一个RegionServer节点作为宿主 , 如果meta服务不可用则所有请求路由会失效 , 导致整体不可用 。 由于客户端有路由缓存 , meta服务停机不会立即造成不可用 。 HBase数据分片使用Range Partition的方式 , 每一个Region由一个RegionServer服务 , 即HBase的计算服务是0冗余 , 因此当RegionServer故障时多个分片不可服务 。 HBase Failover机制可以自愈 , 单RegionServer宕机恢复时间在分钟级 , 多个RegionServer宕机恢复时间在10分钟~1小时时间不等 。

推荐阅读