数据人看Feed流-架构实践( 五 )

Feed流的技术难点

互联网场景总是需要一定规模才能体现出技术的瓶颈 , 下面我们先看两组公开数据:

新浪微博为例 , 作为移动社交时代的重量级社交分享平台 , 2017年初日活跃用户1.6亿 , 月活跃用户近3.3亿 , 每天新增数亿条数据 , 总数据量达千亿级 , 核心单个业务的后端数据访问QPS高达百万级
(来自 Feed系统架构与Feed缓存模型)

截止2016年12月底 , 头条日活跃用户7800W , 月活跃用户1.75亿 , 单用户平均使用时长76分钟 , 用户行为峰值150w+msg/s , 每天训练数据300T+(压缩后) , 机器规模万级别
(来自 今日头条推荐系统架构设计实践)

上面还是两大巨头的历史指标 , 假设一条消息1KB那么千亿消息约93TB的数据量 , 日增量在几百GB规模且QPS高达百万 , 因此需要一个具备高读写吞吐 , 扩展性良好的分布式存储系统 。 用户浏览新消息期望百毫秒响应 , 希望新消息在秒级或者至少1分钟左右可见 , 对系统的实时性要求很高 , 这里需要多级的缓存架构 。 系统必须具备高可用 , 良好的容错性 。 最后这个系统最好不要太贵 。

推荐阅读