两位大佬耗时三年终成数据架构 大数据、数据仓库以及Data Vault( 三 )

重复型大数据和非重复型大数据之间深刻的差别也称作“分界线” 。 本书之所以值得 , 正是因为通过阅读本书你可以很容易地理解这条“分界线” , 而且本书对企业决策能力也有所启示 。

数据仓库

数据仓库面向企业数据完整性方面的需求 。 总有一天 , 企业会开始领悟到这样的事实:拥有数据和拥有可信的数据并不是一回事 。 他们醒悟之后意识到了“数据完整性”的意义 。 这个时候 , 企业级数据仓库( enterprise data warehouse EDW)诞生了 。 有了EDW企业可以利用其中的基础数据制定重要.可信的决策 。 在EDW出现之前 , 企业已经有了大量的数据 , 但这些并不是可信的数据 。

Data Vault

Data Vault面向管理随时间推移而发生数据变更的需求 。 数据仓库会随着时间推移而不断演化 , 这最终形成了一种名为Data Vault的学科和结构 。 不论过去还是现在 , 都有多种原因采用Data Vault作为具有完整性需求的系统的主干 。

推荐阅读