运营商大规模数据集群治理的实践指南(13)

3)运维3.0,主要关注DevOps、微服务、容器化的融合,比如基于容器云的DevOps一体化平台,打通项目管理、需求、研发、测试、上线、变更处理全流程。

4)运维4.0,主要关注AIOps,实现智能化的健康可用性分析、资源占用预测统计、异常检测、故障预警、智能扩缩容、日志根因分析应用等,其实就是用大数据的技术手段来搞定AIOps模型数据的采集、存储和分析处理。

一般来说,企业IT建设的头几年,会逐步上线CMDB、ITSM、Job自动化作业、SOP等子系统,然后开始考虑DevOps、容器云、AIOps等方向的建设。对于大规模数据集群来说,我们必须先构建好这个基础的智能运维技术平台。

总体架构

运营商大规模数据集群治理的实践指南

ITSM:IT流程服务管理系统,支持跨部门业务工作协同;CMDB:配置管理平台,IT资产应用统一配置化动态管理;Job:自动化作业平台,运维场景的作业批量自动化调度执行;SOP:标准运维平台,可视化拖拽模板化的运维流程定义和调度执行;DevOps: 开发运维一体化平台,公司平台级开发运维一体化管理模式;大数据集群治理平台应用:基于Hadoop内核组件深度分析,实现各类运维数据综合采集和统一整合,基于运维业务场景构建智能调度模型,提升平台数据处理作业性能,有效节省集群资源占用,实现平台集群资源利用率最大化。Monitor统一监控:先支持基础设施和平台集群监控应用,然后完成数据治理及上层产品层对接,逐步形成更全面的端到端统一监控平台。

推荐阅读