大数据变现实践：微博百亿营收背后的数据挖掘技术(14)

2019-09-25

但是离线的仓库有一个很大的问题，数据基本上是按天算的。当然，现在也有小时表，但基本上很多数据是按天计算出报表的。

对于我们这种社交化的产品来讲，使用离线方法会难以捕获用户的行为，进行数据分析时也不可能等到第二天再去看数据。

因此，我们需要建立一套实时仓库的模型，结合离线仓库的经验，我们使用了一些存储构建这样的体系，主要是为了上层的数据分析，包括CTR的实施特征的捕捉。同时，在一定程度上也可以减少数据的重复计算。

下图是我们的效果数据，可以看到计算规模从248亿条降到137亿条，减少了很多重复的计算，对内存资源到CPU资源都有极大的降低。

第二是要捕获用户的即时兴趣，这也非常关键，刚才提到的用户画像大部分基于长期的兴趣。

推荐阅读

上一篇：a豆adolbook14渐变粉正式开售：十代酷睿，首款金属渐变笔记本

下一篇：科创板今日仅铂力特等3只个股上涨沃尔德跌幅居首