最新历史版本 :实时管道任务概述 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:
[helpvideo]13474[/helpvideo]

目录:

1. 概述编辑

1.1 应用场景

企业在构建数仓和中间库时,由于业务数据量级较大,如果使用 数据同步 批量定时同步数据很难做到高性能的增量同步,若使用清空目标表再写入数据的方式时,还会面临目标表一段时间不可用、抽取耗时长等问题。

因此希望能在数据库数据量大表结构规范的情况下,实现高性能的实时数据同步。

1.2 实现原理

详情请参见:实时管道&实时任务架构与原理

1.3 功能简介

  • 实时管道任务可将源端数据库的单张表、多张表(最多5000张表)实时同步到目标端(原表原样同步,不能对数据进行处理)。

  • 实时管道任务运行后,一般情况下无需再次启动,当源端数据发生增删改或者源端表结构发生变化时(源表新增字段、删除字段、修改字段名称等),目标端可自动实时同步变化。

  • 当实时管道任务意外中止后,支持断点续传:若全量同步未完成,会从头全量同步;若全量同步已完成,会从断点开始。

断点续传示例:实时管道任务在 03-21 日读取了数据,03-23 日停掉,03-27 日启动,03-23 到 03-27 日的数据会同步过去。

优势:可实时大规模数据自动同步到目标表中。

1757917814925571.png

1.4 与其他功能模块区别

icon提示:
详情请参见:FineDataLink模块介绍

2. 使用限制&注意事项编辑

2.1 使用限制

  • 管道任务不支持同步视图和索引。

  • 新建实时管道任务需要有某文件夹 OR 所有实时管道任务的管理权限。详情请参见:管道任务管理权限

  • 同一个管道任务只能配置一个数据源的多对一(使用 分组表 功能)和多对多,如果是不同数据源,需要配置多个数据管道任务。

  • 单个任务限制最多选取 5000 张表,达到限制时不允许新增选择

2.2 注意事项

  • 不建议用户使用数据管道同步 longtext 类型的字段,否则 Kafka 会有问题,运行效率也会有问题。

  • 不建议来源表字段名称中包含空格,否则任务启动将会报错。

3. 能力说明编辑

2.png

能力说明
支持的数据源实时同步支持多种数据源,可以将多种来源端及目标端数据源搭配组成同步链路进行数据实时同步。数据管道支持的数据源请参见:数据管道支持的数据源类型
同步场景

同步对象说明:

同步对象
说明
单表/多表支持单表、多表实时同步
整库

支持一次性配置一个实例下多个库的多个

单个任务限制最多选取 5000 张表,达到限制时不允许新增选择

多对一4.1.8.1 及之后版本,支持多张结构相同的源表数据同步到一张目标表中,取所有源表字段的交集作为分组表的字段

同步类型说明:

详情请参见:同步类型

  • 存量+增量同步:先对所有存量数据完成同步,随后持续同步新增的变化数据(增/删/改)

  • 增量:任务仅包含增量阶段,任务初次运行时,将按照配置的起始时间开始进行增量同步

任务配置

1)任务配置前,需要先准备数据库环境、管道任务环境。详情请参见:数据管道使用说明 文档的第二章、第三章内

2)在 FDL 中配置管道任务时,步骤简单,无需编写代码;功能丰富。详细说明如下:

步骤
亮点
选择数据来源&数据去向

在下拉框中选择来源端和目标端即可,操作简单

高级设置
  • 可设置目标表执行物理删除(实际删除数据)还是逻辑删除(不实际删除数据,只是标记删除数据)

  • 同步时可标记时间戳,记录数据在数据库中实际新增和更新的时间数据库所在时间

  • 用户可根据实际需要选择是否开启 同步源表结构变化 功能

同步配置
操作
说明
选择来源表

支持搜索表名,点击表名即能选中源

支持快速选表功能,可批量选择多表

选择目标表

可选择已存在表、或自动建

支持批量修改目标表名、表建立方式、同步方式

设置主键目标表为自动建表时,支持设置物理主键;一些数据源支持不设置物理主键,只设置逻辑主

特别说明:

  • 4.1.9.3 及之后版本,支持统一对多个使用同一数据连接的管道任务自定义字段类型映射规则;详情请参见:通用配置-字段映射规则

  • 4.0.18 及之后版本,目标表为自动建表时,表名和字段名支持大小写转换;表名、字段名支持大小写自动纠正;详情请参见:通用配置-自动建表配置

  • 目标表为自动建表时,支持指定分区、分布键;详情请参见:读取、创建、写入分区表

任务控制
  • 支持设置脏数据上限,达到上限则自动终止表同步

  • 支持设置失败重试,当管道任务由于当时的网络波动或者其他原因,运行中断,设置失败重试后可自动重新运行任务

  • 当任务异常时可进行通知,通知渠道支持:短信、邮件、平台消息、钉钉群机器人、飞书群机器人、企业微信群机器人

  • 可设置管道任务的日志等级,满足用户按需查看日志、调试和排错的需求;可以在更细粒度的日志等级里,打印详细的日志,供用户查看

任务运维

1)详情请参见:管道任务运维

4.2.11.3 及之后版本,优化表级和任务级编辑功能:

  • 实时管道运行中时,支持添加同步对象

  • 支持删除同步对象、修改同步对象(修改同步类型、映射关系、写入方式等所有同步对象的配置

  • 支持修改任务控制、高级配置

  • 支持重置实时管道任务

统一说明:

  • 支持查看管道任务运行状况、查看读写统计、查看日志、处理脏数据

  • 4.2.1.1 及之后版本,管道任务异常划分为表级和任务级:分别支持自动重试;表级别异常不影响任务中其他表正常运行

2)资源控制

管道任务需要占用内存和并发资源等,因此用户可能需要根据实际的使用情况进行任务调整

3)4.2.4.3 及之后版本,管道任务新建并启动后,在「管理系统>数据连接>实时采集任务」中自动新增 实时采集任务,对数据库日志解析进行管理

数据中心

4.1.6.1 及之后版本,可在 FDL 的 库表管理 功能中,查看、修改表数据(快速检查实时同步效果)

4.1.11.1 及之后版本,可查看管道任务中所使用数据表的血缘关系,详情请参见:血缘分析

其他

4.1.9.3 及之后的版本支持使用「回收站」进删除任务的还原、管理,详情请参见:回收站

4.1.6.3-4.2.11.3 版本,管道任务禁止被多人同时编辑;4.2.11.3 及之后版本,仅「草稿」状态的实时管道任务编辑时存在编辑锁限制。详情请参见:任务禁止被多人同时编辑

4. 使用流程编辑

5. 实时管道任务运维编辑

注1:若工程中包含管道任务,关闭工程不建议使用 kill -9 pid 语句,会导致管道任务异常,建议使用 kill pid 语句。详情请参见:关闭或重启FineDataLink工程

注2:4.1.6.3 及之后版本,管道任务禁止被多人同时编辑。详情请参见:任务禁止被多人同时编辑

操作
参考文档
重命名、移动、复制、导出、删除管道任务

任务列表

管道任务迁移管道任务导入导出
查看任务运行状况、查看日志、处理脏数据

4.2.11.3 之前版本,编辑管道任务:

注:修改范围有限,若某些设置项无法修改,可复制管道任务

  • 添加表、删除表、修改数据连接

  • 重新设置同步表结构变化按钮、脏数据阈值、失败重试、结果通知等

4.2.11.3 及之后版本,编辑管道任务:

  • 实时管道运行中时,支持添加同步对象

  • 支持删除同步对象、修改同步对象(修改同步类型、映射关系、写入方式等所有同步对象的配置

  • 支持修改任务控制、高级配置

  • 支持重置实时管道任务

单个管道任务管理
想对所有管道任务进行统一的管理,比如停止任务、删除任务、检查任务运行状态、同步性能、对异常情况进行监控和处理、批量暂停任务等管道任务运维
  • 管道任务并发数说明

  • 管道任务运行后,新增/删除表

  • 原任务无法运行,需要重新配置任务,进入编辑任务界面,发现某设置项不能修改怎么办

数据管道运维指导
记录数据管道相关信息的 FineDB 数据库表
数据管道
管道任务的查看、编辑、授权权限

管道任务管理权限

管道任务授权权限

数据管道问题合集

数据管道FAQ

数据管道问题排查

用户想了解某个管道任务是谁编辑的、编辑时间、断点相关信息等,FDL 工程内的 管道任务运维 无法满足需求BI仪表板展示管道任务信息

用户的管道任务实现上百张表的实时同步,且存在部分来源表和目标表的表名不同、多张来源表同步到一张目标表等情况,导致用户在管理来源表和目标表的对应关系时(例如重构任务)较为困难

管道任务的来源表在 FineDB 的 fine_dp_pipeline_task 表中记录

导出管道任务中来源表及对应的目标表信息