大数据变现实践:微博百亿营收背后的数据挖掘技术(24)
同时,标签需要有更新机制,有些标签要不停地去迭代,而且还要建立标签监控的机制。比如说标签覆盖了多少用户?使用率怎么样?你得有这个数据,有这个数据之后才知道怎么去淘汰和新增。
比如说我们在广告定向里有一个用户登录频次的标签,分为:偶尔、经常。
你会发现广告主投偶尔这个标签效果非常好,但是我们观察到偶尔用户覆盖率不多,我们就得想办法通过数据挖掘方式挖这部分标签,让这部分标签覆盖数更大,通过这种方式逐渐迭代,让标签更加完善。
Q2:实时数仓建设那部分你们第一步直接放在ClickHouse,标准做法轻度聚合,能详细介绍一下吗?
A:我们使用ClickHouse,是会分多个层次的,也是为了上层接近业务,下层接近数据,中间做一些处理的工作,这些都会生成中间的表,这些数据会放到ClickHouse里,可以参考离线仓库的分层模型,我们只是用ClickHouse作为存储和查询引擎。
Q3:每一层怎么调度?
A3:我们用Flink去算(包括一部分的聚合、关联、过滤等操作),算完更新数据到ClickHouse就好了,因此每一层不会有调度关系,实时仓库里的这个层是一个逻辑概念。
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解
- |S11淘汰赛数据盘点:场均时长为33分 55个不同英雄登场
- 中单|2021年英雄联盟世界赛终于落下帷幕!!大数据统计二!!
- 灵饰|梦幻西游:109级法系前排灵饰选择方法,用数据告诉你怎么做
- 索尼|微索任御三家游戏机回收,上品收即刻变现
- 卡牌|S11淘汰赛数据出炉,卡牌24场全被ban,压刀最多竟是辅助
- edg战队|堡垒之夜国服将清除数据,EDG创造队史晋级S11世界赛决赛