大数据变现实践:微博百亿营收背后的数据挖掘技术(14)

但是离线的仓库有一个很大的问题,数据基本上是按天算的。当然,现在也有小时表,但基本上很多数据是按天计算出报表的。

大数据变现实践:微博百亿营收背后的数据挖掘技术

对于我们这种社交化的产品来讲,使用离线方法会难以捕获用户的行为,进行数据分析时也不可能等到第二天再去看数据。

因此,我们需要建立一套实时仓库的模型,结合离线仓库的经验,我们使用了一些存储构建这样的体系,主要是为了上层的数据分析,包括CTR的实施特征的捕捉。同时,在一定程度上也可以减少数据的重复计算。

下图是我们的效果数据,可以看到计算规模从248亿条降到137亿条,减少了很多重复的计算,对内存资源到CPU资源都有极大的降低。

大数据变现实践:微博百亿营收背后的数据挖掘技术

第二是要捕获用户的即时兴趣,这也非常关键,刚才提到的用户画像大部分基于长期的兴趣。

推荐阅读