运营商大规模数据集群治理的实践指南( 九 )
第五步:实现NN RPC画像、关键Master服务预警
第六步:实现冗余计算挖掘,以目录维度评估冗余度
第七步:重构数据血缘、元数据、数据资产管理应用
第八步:智能分析集群用户行为画像,检测预测异常
下文中将对以上八个步骤进行具体解读。
五、集群治理的案例实践
1、第一步:理清大规模数据集群的现状和治理需求点
现状:Hadoop集群的计算能力已达到数千节点,平台部分集群初期由外部厂商进行建设,为了支撑业务快速上线,并没有统一规划,无序建设引发的问题逐渐暴露出来,权限混乱、计算能力下降、资源冗余计算、资源浪费等问题频发,针对该部分集群的稳定性和资源利用优化治理工作挑战巨大。
需求点:数据治理项目实施的整体难点主要集中在运营商多源头数据质量持续改进、日万亿级大规模数据加工处理、数据平台资源弹性交付与产品化快速响应支撑能力、数据能力开放平台租户高效运营、数据平台智能运维体系建设、数据安全合规保障等六个方面。其中跟集群本身治理特别相关的是:集群智能运维平台搭建、Hadoop组件洞察应用、冗余计算挖掘、集群用户行为智能分析、数据血缘与元数据管理系统重构等五个方面。
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解
- |S11淘汰赛数据盘点:场均时长为33分 55个不同英雄登场
- 中单|2021年英雄联盟世界赛终于落下帷幕!!大数据统计二!!
- 灵饰|梦幻西游:109级法系前排灵饰选择方法,用数据告诉你怎么做
- 卡牌|S11淘汰赛数据出炉,卡牌24场全被ban,压刀最多竟是辅助
- edg战队|堡垒之夜国服将清除数据,EDG创造队史晋级S11世界赛决赛
- 原神|原神:流水预测数据还在变化,日本的预估流水,倒是有了小状况