使用EMR-Kafka Connect进行数据迁移( 二 )

----使用EMR-Kafka Connect进行数据迁移//---- http://

使用EMR-Kafka Connect进行数据迁移

1.背景

流式处理中经常会遇到Kafka与其他系统进行数据同步或者Kafka集群间数据迁移的情景 。 使用EMR Kafka Connect可以方便快速的实现数据同步或者数据迁移 。

Kafka Connect是一种可扩展的、可靠的 , 用于在Kafka和其他系统之间快速地进行流式数据传输的工具 。 例如可以使用Kafka Connect获取数据库的binglog数据 , 将数据库的数据迁入Kafka集群 , 以同步数据库的数据 , 或者对接下游的流式处理系统 。 同时 , Kafka Connect提供的REST API接口可以方便的进行Kafka Connect的创建和管理 。
Kafka Connect分为standalone和distributed两种运行模式 。 standalone模式下 , 所有的worker都在一个进程中运行;相比之下 , distributed模式更具扩展性和容错性 , 是最常用的方式 , 也是生产环境推荐使用的模式 。

推荐阅读