运营商大规模数据集群治理的实践指南( 四 )
这些问题可进一步分为几类,简单分析完你就自然明白了:
1)管理类:集群接口机权限管控、数据表不合理创建和删除、垃圾数据表过多问题。这类问题,可以通过数据治理工程进行持续改进,但是解决时间周期以年为单位。
2)集群类:集群整体加工慢、稳定性欠佳、队列资源争抢、资源得不到合理分配的问题。这类问题,基本上要集群底层视角进行深入分析,在业务层做数据治理几乎无解。
3)洞察类:冗余计算浪费资源问题、智能实时预警、完整血缘和数据价值分析问题。这类问题只能通过大数据技术手段对Hadoop底层核心组件做深入洞察来解决。
三、集群治理的目标
Q: 听你这么说,针对大规模数据集群的治理工程还是很有必要的!
A:是的,“大规模”带来的问题,肯定不止上面这几类,实际上会远超你的想象,传统的数据治理工具(如元数据、数据质量、数据血缘分析)可能就不灵了,必须要根据集群规模、数据仓库新型技术方案选型以及业务流程进行重构,才可能得到预期的治理效果。再强调一句,大规模数据是长在集群之上,而集群里面的很多关键组件不是传统的商业关系型数据库,而是开源社区的通用版本,其可维护性、稳定性和功能局限性等方面都存在较大的挑战,性能这块也需要深入到源码层进行重构调优处理,你得做好准备。
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解
- |S11淘汰赛数据盘点:场均时长为33分 55个不同英雄登场
- 中单|2021年英雄联盟世界赛终于落下帷幕!!大数据统计二!!
- 灵饰|梦幻西游:109级法系前排灵饰选择方法,用数据告诉你怎么做
- 卡牌|S11淘汰赛数据出炉,卡牌24场全被ban,压刀最多竟是辅助
- edg战队|堡垒之夜国服将清除数据,EDG创造队史晋级S11世界赛决赛
- 原神|原神:流水预测数据还在变化,日本的预估流水,倒是有了小状况