使用EMR-Kafka Connect进行数据迁移( 三 )

本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移 , 使用distributed模式 。

2.环境准备

创建两个EMR集群 , 集群类型为Kafka 。 EMR Kafka Connect安装在task节点上 , 进行数据迁移的目的Kafka集群需要创建task节点 。 集群创建好后 , task节点上EMR Kafka Connect服务会默认启动 , 端口号为8083 。

注意要保证两个集群的网路互通 , 详细的创建流程见创建集群 。

3.数据迁移

3.1准备工作

EMR Kafka Connect的配置文件路径为/etc/ecm/kafka-conf/connect-distributed.properties 。

在源Kafka集群创建需要同步的topic , 例如

另外 , Kafka Connect会将offsets configs和任务状态保存在topic中 , topic名对应配置文件中的offset.storage.topic、config.storage.topic 和status.storage.topic三个配置项 。 默认的 , Kafka Connect会自动的使用默认的partition和replication factor创建这三个topic 。

推荐阅读