数仓|数据驱动业务创新,易鑫“智能数仓”为汽车金融带来更多可能

假期刚过,易鑫集团产品部经理王杨一大早就坐在电脑前,开始整理十一期间的运营数据。各条事业线、上百个产品、不同渠道,还有一些重要的测试期产品需要呈现更多细节。这个工作量,以往需要一个数据分析团队花费一整天的时间才能完成,而在易鑫智能数据仓库(以下简称“智能数仓”)的支持下,只要短短30分钟。
“智能数仓”的作用不仅在提升数据分析的效率。作为一家专业的汽车金融交易平台,易鑫集团累计实现的汽车金融交易量已超过200万台,是数十家银行等金融机构的合作伙伴。在平台纷繁忙碌的日常运营中,“智能数仓”的存在犹如“核心大脑”,为多业务体系稳定高效的运行提供了最强有力的科技保障。
从“散装”数据,到自建“智能数仓”
徐飞是易鑫“智能数仓”项目的第一位员工。彼时的易鑫,还没有一个真正意义上的“数据仓库”,众多业务数据被“散装”在几十个互不相通的业务操作系统中,只能通过手工报表导入信息。数据标准不统一,靠“手工”管理的表格极易出现错漏,严重制约了业务的进一步发展。
作为国内首批从事大数据平台建设、应用研发的专业人员,徐飞不仅参与过多家大型互联网企业的数据中心构建,还有一段不短的创业经历,帮助过众多中小型互联网公司构建独立中心数据仓库,这使得他在自建易鑫“智能数仓”的工作中,能给出更精准的设计和前瞻性的战略布局。
“和互联网公司汇集海量用户的行为数据不同,易鑫是以业务数据为主,对数据平台的安全性、稳定性和数据精准度、可用易用性要求更高;同时,公司多业务并行,数据横跨多个系统、链条拉得很长,口径不统一、标准不兼容,第三方商业数据库没法完全满足需求;作为一家平台化发展的企业,系统必须具备支持多项目运行的复杂运算和无限扩容的能力,以满足随着业务增长、未来数据处理量几倍、甚至上百倍增长的要求。”
徐飞说:“综合考察各种商业数据库的方案,也参考了互联网企业经验,我们发现自建数仓是最‘慢’、最‘费力’,但也最‘扎实’的解决方案。”
数仓|数据驱动业务创新,易鑫“智能数仓”为汽车金融带来更多可能
文章插图
上图:易鑫“智能数仓”团队在工作中
构建深入业务的“核心大脑”
同一团队的老秦曾参与过新浪等互联网公司的数据仓库建设。在他眼中,易鑫自建“智能数仓”,至少要具备三方面能力:首先,有统一的输入输出标准,能够支持海量多源异构数据的灵活存储和高效计算;其次,能够构建横跨多个业务系统的通用数据标准,实现对跨平台数据的有效组织和贯通;第三,具备加工数据产品和提供数据服务的能力,有支持统计、分析、挖掘等的中台操作模块,可以基于SLA标准对外稳定输出。
为了解决存储和扩容问题,团队用互联网公司标准,搭建了基于Hadoop框架的分布式计算存储平台,辅以领域内先进的Flink/Spark实时计算引擎,建立起包含100多个节点的服务器布局,让系统可以无限扩容的同时,还具有了大批量的离线数据处理及“秒级”计算能力。然后,系统抓取易鑫近百个系统中的源数据,并进行全面“清洗”,再根据业务逻辑将数据按照“业务对象”、“业务周期”、“用户”等不同主题模型化,进行分门别类的存储。“就像把不同工厂生产的衣物鞋帽,按照上衣、下装、鞋袜、配件等打上分类标签,或者按照男人、女人、小孩等适用场景分到不同仓库中,让数据井然有序。”老秦解释说。
“当中最难的,是如何将分属不同系统中的数据,划归到统一的标准口径下。”作为“智能数仓”核心数据工程师的马维直言,来易鑫之前,自己从未如此贴近过业务:“互联网公司的数据,都是IP、浏览等定义清晰的字段。但在易鑫,各个汽车金融业务之间并没有百分百的对应关系,每当业务系统出现一个新字段,都需要重新定义。”

推荐阅读