运营商大规模数据集群治理的实践指南(12)

基于以上面临的各种困境构建巡山大数据集群治理平台,以资源、存储、作业三大角度,从资源画像、作业画像、存储画像、冗余计算挖掘、数据血缘画像、RPC画像六大维度,几十个小维度进行集群交叉治理并协同各相关组织进行全域治理,使集群全面向良性健康方向发展。

3、第三步:构建针对大数据集群的智能运维技术平台

Q: 军哥,搞大规模数据集群的治理怎么扯到智能运维平台上面去了呢?必须要建这个平台吗?

A: 好问题!前面说过,集群治理的首要目标就是充分保证集群资源算力,实际上就是要保障集群关键服务运行和数据作业资源调度的稳定性,以及相对不错的性能表现。

这里的稳定性和性能就是IT运维领域的事情,从业界发展来看,主要经历了四个阶段:

1)运维1.0,主要关注网管软件和ITSM工单系统,讲究业务协同和运维流程化。

2)运维2.0,主要关注CMDB和SOP标准运维,一般都会强调自动化工具在运维场景的应用,重点解决一些靠堆人方式解不了的问题。

推荐阅读