Hadoop深度运维:Apache集群原地升级Ambari-HDP(11)
1、工作协调最关键
本次Hadoop升级,涉及到shutdown整个集群。意味着全公司的所有大数据pipelien都会经历一次停止/启动。要规划好全公司所有大数据工程师的一致行动,是很有挑战的一件事情。有一些经验总结:
提前与各使用方沟通运维窗口期,找到各业务线能达成一致的业务低峰期作为运维窗口期,把对业务的影响降到最低。我们在沟通过程中,就发生了首次协商的时间,因为部分团队没发达成一致,最后在第二次充分沟通后才找到合适的运维窗口期,使全公司数据团队达成一致;建一个“专项作战群”,不定期同步项目进度,让所有参与方感受到项目的热度;协调各Hadoop组件管理员,在升级前后,参与server端的确认和恢复工作;协调各业务方接口人,在升级前后,参与应用/服务的确认和恢复工作,保障业务快速恢复。2、团队协作
梳理整个上线运维窗口期所有操作的checklist,团队实施人员按照分工操作配合;一定要明确分工。有人负责主流程操作,有人在“专项作战群”对接业务方接口人;checklist一定要多人相互review,在事前确保万无一失,避免当场遇到问题手忙脚乱。3、压缩停机时间
推荐阅读
- 无尽梦魇|魔兽世界TBC:深度解析“翠绿的宝珠”对哪些职业保值
- 李九|S组才是真正的宝藏!解说李九深度分析KPL秋季赛第三轮,爆发到了
- 王者荣耀|英雄联盟手游被指抄袭王者荣耀?王者玩家看好了,这叫深度还原
- fpx战队|深度分析:FPX四个0-1的惨败原因,S11的FPX能否登顶外战第一耻辱
- 银河战士融合|传《银河战士融合》初代正开发中,深度重制,明年E3前发售
- 王者荣耀|原神:雷神与心海选谁?深度解析避免踩坑,帮你做出正确选择
- iqoo8|为什么这几年中国LOL这么强?深度解析!另有一个问题亟待解决
- RNG|赛前BB机:RNGVSLNG,谁能晋级四强?深度分析,让我们一起讨论下
- 喋血复仇|和平精英:AKM vs M762深度对比测评,KS阿神带你详细了解
- 穿越火线|CF:深度分析,存在感为0的英雄级武器是怎么混到这一步的