大数据变现实践:微博百亿营收背后的数据挖掘技术(14)
但是离线的仓库有一个很大的问题,数据基本上是按天算的。当然,现在也有小时表,但基本上很多数据是按天计算出报表的。
对于我们这种社交化的产品来讲,使用离线方法会难以捕获用户的行为,进行数据分析时也不可能等到第二天再去看数据。
因此,我们需要建立一套实时仓库的模型,结合离线仓库的经验,我们使用了一些存储构建这样的体系,主要是为了上层的数据分析,包括CTR的实施特征的捕捉。同时,在一定程度上也可以减少数据的重复计算。
下图是我们的效果数据,可以看到计算规模从248亿条降到137亿条,减少了很多重复的计算,对内存资源到CPU资源都有极大的降低。
第二是要捕获用户的即时兴趣,这也非常关键,刚才提到的用户画像大部分基于长期的兴趣。
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解
- |S11淘汰赛数据盘点:场均时长为33分 55个不同英雄登场
- 中单|2021年英雄联盟世界赛终于落下帷幕!!大数据统计二!!
- 灵饰|梦幻西游:109级法系前排灵饰选择方法,用数据告诉你怎么做
- 索尼|微索任御三家游戏机回收,上品收即刻变现
- 卡牌|S11淘汰赛数据出炉,卡牌24场全被ban,压刀最多竟是辅助
- edg战队|堡垒之夜国服将清除数据,EDG创造队史晋级S11世界赛决赛