Hadoop深度运维:Apache集群原地升级Ambari-HDP(11)

1、工作协调最关键

本次Hadoop升级,涉及到shutdown整个集群。意味着全公司的所有大数据pipelien都会经历一次停止/启动。要规划好全公司所有大数据工程师的一致行动,是很有挑战的一件事情。有一些经验总结:

提前与各使用方沟通运维窗口期,找到各业务线能达成一致的业务低峰期作为运维窗口期,把对业务的影响降到最低。我们在沟通过程中,就发生了首次协商的时间,因为部分团队没发达成一致,最后在第二次充分沟通后才找到合适的运维窗口期,使全公司数据团队达成一致;建一个“专项作战群”,不定期同步项目进度,让所有参与方感受到项目的热度;协调各Hadoop组件管理员,在升级前后,参与server端的确认和恢复工作;协调各业务方接口人,在升级前后,参与应用/服务的确认和恢复工作,保障业务快速恢复。2、团队协作

梳理整个上线运维窗口期所有操作的checklist,团队实施人员按照分工操作配合;一定要明确分工。有人负责主流程操作,有人在“专项作战群”对接业务方接口人;checklist一定要多人相互review,在事前确保万无一失,避免当场遇到问题手忙脚乱。3、压缩停机时间

推荐阅读