辨析BI、数据仓库、数据湖和数据中台内涵及差异点( 五 )

2. 1 维基百科对数据湖的定义

数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象 blob 或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。来源:维基百科。

目前,Hadoop 是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是 Hadoop 集群。数据湖是一个概念,而 Hadoop 是用于实现这个概念的技术。

辨析BI、数据仓库、数据湖和数据中台内涵及差异点

数据湖的处理架构

辨析BI、数据仓库、数据湖和数据中台内涵及差异点

推荐阅读