Hadoop深度运维：Apache集群原地升级Ambari-HDP( 二 )_：Hadoop深度运维：Apache集群原地升级

HDFS HA配置不够完善；Yarn没有HA；HiveServer2 / Hive MetaStore没有HA；NameNode与JournalNode混合部署；Zookeeper与DataNode混合部署。哪台机器安装哪些进程，不可知：

历史遗留问题，首先各机器服务安装清单不齐全，需手工维护；安装各类小工具，已不可考证。没有机架感知（rack level）相关配置：

HDFS的持久性会经受考验，没有跨机架的3副本。各组件的conf管理方式原始，各节点配置没有统一管理：

调参，目前依赖逐台机器的con_bak方式；conf没有版本控制，各worker节点可能各不相同，导致资源错配、浪费；conf没法按机器分组，也没有记录维护分组的地方。无客户端管理：

客户端如果管理不到位，影响admin做大部分的参数调优，部署调整，严重影响Hadoop的可维护性。HDFS依赖的JournalNode仍然和NameNode混合部署：

NameNode主盘的IOPS已经很高了。日常运维麻烦：

重启一个进程，至少需要4步：ssh到跳板机→ssh到目标机→切换Hadoop用户→重启服务命令；滚动重启没有正规化的trigger，很难做集群级别的调参。监控报警不全：

Hadoop深度运维：Apache集群原地升级Ambari-HDP( 二 )