历史版本54 :配置管道任务 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:
[helpvideo]5463[/helpvideo]

目录:

1.概述编辑

1.1 版本说明

FineDataLink 版本
功能变动
4.0.27
  • 管道任务提示优化

  • 支持快速批量选择需要同步的数据表

  • 支持文件夹管理管道任务

  • 脏数据处理优化,支持对单表和多表生成的脏数据进行忽略、重试或者重新同步

  • 任务日志提示优化

4.0.28支持Clickhouse作为写入端
4.0.29
  • Greenplum、Greenplum(并行装载)作为目标端同步优化:当数据通过COPY装载失败时,重新使用JDBC装载,重新装载再失败时,识别为脏数据,并正常记录,以保证数据正常。

  • 任务支持复制到指定文件夹位置

点击展开更多


FineDataLink 版本功能变动
4.0.5-
4.0.7
管道任务列表交界面优化
4.0.14支持逻辑删除和显示数据存储入库时间戳
4.0.16
  • 对于管道任务目标表,支持自动建表和选择「已存在表」两种方式

  • 字段支持设置映射方式

4.0.17
  • 支持Mysql 作为读取和写入数据源,设置同步源表结构变化

4.0.18
  • 支持 Oracle18c、19c 、Oracle RAC集群作为读取数据

  • 支持批量编辑目标数据库表名前后缀

  • 表名、字段名支持大小写转换,同时自动建表时表名、字段名支持大小写自动纠正

4.0.23对于无法设置物理主键的数据表,数据管道支持设置逻辑主键
4.0.26「管道控制」步骤中,新增「失败重试」设置,详情请参见 3.5 节说明


完成数据源、数据库环境、管道任务环境准备配置后,可创建管道任务,将多种类型的数据源输入输出链路进行组合,进行单表或整库数据的实时同步。

本文介绍如何创建数据实时同步任务,并在创建完成后查看任务运行情况。

2. 前提条件编辑

  • 数据源环境已准备完成:基于需要设置数据管道任务的数据源,授予数据源配置的账号在数据库进行相应操作的权限。详情请参见:数据源环境准备

  • 已完成数据源配置。需要在使用数据管道进行实时同步任务配置前,配置好需要同步的源端和目标端数据库,以便在同步任务配置过程中,通过选择数据源名称来控制同步任务,详情参见:配置数据连接

注:由于 clickhouse 数据库的特殊性,collapsingMergeTree 表的合并不定时,会出现重复数据。所以使用实时同步的表时,需要在使用前手动触发一次合并,或者在查询 SQL 使用集合方式,计算时去除掉重复数据的影响。详情参见:clickhouse 作为写入端时字段映射说明

3. 操作步骤编辑

示例以 MySQL 数据同步为例。

将 test_1 数据库中的「S订单」、「hd_xiaoshou」、「hn_xiaoshou」、「hb_xiaoshou」数据表实时同步至 demotest 数据库中。

3.1 配置传输队列

配置传输队列,其实就是配置暂存来源库数据,方便目标库写入数据的「数据管道」,目前是通过 Kafka 实现的。

详情参见:配置传输队列

3.2 新建任务

点击数据管道,新建文件夹管理管道任务,如下图所示:

在文件夹下创建管道任务,如下图所示:

注:创建的任务可自由移动至指定文件夹,如下图所示:

2023-07-31_20-09-16.gif

可将任务复制到指定文件夹或者目录位置,如下图所示:

2023-08-30_14-08-45.gif

同时选择指定的文件夹,在右侧可看到文件夹下所有的管道任务,并且可以调整管道任务展示形式(卡片式、列表式),如下图所示:

3.3 选择数据来源

首先选择需要数据同步的来源数据。

进入任务设置界面,选择来源数据库,由于在开发管道任务的过程中想要批量选择多张表,可以使用「快速选表」,批量选择需要同步的数据表,将已经存在的「S订单」、「hd_xiaoshou」、「hn_xiaoshou」、「hb_xiaoshou」数据表选到「要同步的表」中,如下图所示:

注:默认先对所有存量数据同步,然后持续同步新增变化。

3.4 选择数据去向

详情请参见:配置管道任务-选择数据去向

3.5 设置表字段映射

详情请参见:配置管道任务-表字段映射

3.6 设置管道控制

详情请参见:配置管道任务-管道控制

3.7 保存和运行任务

点击「保存并运行」,即可保存并运行管道任务,如下图所示:

注:历史版本升级至 4.0.27 后,原先暂存列表中的任务兼容方式如下:

兼容的内容策略
原先暂存列表中的任务

若任务列表中有对应暂存列表的任务

升级上来原先任务名加后缀「-暂存」,任务为「草稿」状态,排在已运行过的任务后
若任务列表中没有对应暂存列表的任务升级上来为「草稿」状态,排在列表最后

此时点击管道任务,即可看到任务执行情况,如下图所示:

3.8 效果查看

此时即可在目标数据库 已经实现了数据表的实时同步,如下图所示:


4. 后续步骤编辑

任务配置完成后,对单个任务进行管理详情参见:单个管道任务管理

对全量管道任务管理详情参见管道任务运维