Lambda plus: 云上大数据解决方案( 五 )_：Lambdaplus:云上大数据解决方案本文

Kappa+是Uber提出流式数据处理架构，它的核心思想是让流计算框架直读HDFS类的数仓数据，一并实现实时计算和历史数据backfill计算，不需要为backfill作业长期保存日志或者把数据拷贝回消息队列。Kappa+将数据任务分为无状态任务和时间窗口任务，无状态任务比较简单，根据吞吐速度合理并发扫描全量数据即可，时间窗口任务的原理是将数仓数据按照时间粒度进行分区存储，窗口任务按时间序一次计算一个partition的数据，partition内乱序并发，所有分区文件全部读取完毕后，所有source才进入下个partition消费并更新watermark。事实上，Uber开发了Apache hudi框架来存储数仓数据，hudi支持更新、删除已有parquet数据，也支持增量消费数据更新部分，从而系统性解决了问题2存储的问题。下图3是完整的Uber大数据处理平台，其中Hadoop -> Spark -> Analytical data user涵盖了Kappa+数据处理架构。