Hadoop深度运维:Apache集群原地升级Ambari-HDP( 二 )

HDFS HA配置不够完善;Yarn没有HA;HiveServer2 / Hive MetaStore没有HA;NameNode与JournalNode混合部署;Zookeeper与DataNode混合部署。哪台机器安装哪些进程,不可知:

历史遗留问题,首先各机器服务安装清单不齐全,需手工维护;安装各类小工具,已不可考证。没有机架感知(rack level)相关配置:

HDFS的持久性会经受考验,没有跨机架的3副本。各组件的conf管理方式原始,各节点配置没有统一管理:

调参,目前依赖逐台机器的con_bak方式;conf没有版本控制,各worker节点可能各不相同,导致资源错配、浪费;conf没法按机器分组,也没有记录维护分组的地方。无客户端管理:

客户端如果管理不到位,影响admin做大部分的参数调优,部署调整,严重影响Hadoop的可维护性。HDFS依赖的JournalNode仍然和NameNode混合部署:

NameNode主盘的IOPS已经很高了。日常运维麻烦:

重启一个进程,至少需要4步:ssh到跳板机→ssh到目标机→切换Hadoop用户→重启服务命令;滚动重启没有正规化的trigger,很难做集群级别的调参。监控报警不全:

推荐阅读