运营商大规模数据集群治理的实践指南( 四 )

运营商大规模数据集群治理的实践指南

这些问题可进一步分为几类,简单分析完你就自然明白了:

1)管理类:集群接口机权限管控、数据表不合理创建和删除、垃圾数据表过多问题。这类问题,可以通过数据治理工程进行持续改进,但是解决时间周期以年为单位。

2)集群类:集群整体加工慢、稳定性欠佳、队列资源争抢、资源得不到合理分配的问题。这类问题,基本上要集群底层视角进行深入分析,在业务层做数据治理几乎无解。

3)洞察类:冗余计算浪费资源问题、智能实时预警、完整血缘和数据价值分析问题。这类问题只能通过大数据技术手段对Hadoop底层核心组件做深入洞察来解决。

三、集群治理的目标

Q: 听你这么说,针对大规模数据集群的治理工程还是很有必要的!

A:是的,“大规模”带来的问题,肯定不止上面这几类,实际上会远超你的想象,传统的数据治理工具(如元数据、数据质量、数据血缘分析)可能就不灵了,必须要根据集群规模、数据仓库新型技术方案选型以及业务流程进行重构,才可能得到预期的治理效果。再强调一句,大规模数据是长在集群之上,而集群里面的很多关键组件不是传统的商业关系型数据库,而是开源社区的通用版本,其可维护性、稳定性和功能局限性等方面都存在较大的挑战,性能这块也需要深入到源码层进行重构调优处理,你得做好准备。

推荐阅读