最新历史版本 :数据管道概述 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:
[helpvideo]8592[/helpvideo]

目录:

1. 概述编辑

1.1 应用场景

企业在构建数仓和中间库时,由于业务数据量级较大,如果使用 数据同步 批量定时同步数据很难做到高性能的增量同步,若使用清空目标表再写入数据的方式时,还会面临目标表一段时间不可用、抽取耗时长等问题。

因此希望能在数据库数据量大或表结构规范的情况下,实现高性能的实时数据同步

1.2 功能说明

持对数据源进行单表、多表、整库、多对一数据的实时全量和增量同步,可以根据数据源适配情况,配置实时同步任务。如下图所示:

1716965532428120.png

1.3 实现原理

FDL 监听数据管道来源端的数据库日志变化,利用 Kafka 作为数据同步中间件,暂存来源数据库的增量部分,进而实现向目标端实时写入数据的效果。

22.png

1.4 断点续传功能说明

若管道任务失败,支持断点续传:若全量同步未完成,会从头全量同步;若全量同步已完成,会从断点开始。

断点续传示例:

管道任务在 03-21 日读取了数据,03-23 日停掉,03-27 日启动,03-23 到 03-27 日的数据会同步过去。

1.5 数据管道与数据开发的区别

详情请参见:数据管道与数据开发区别

1.6 数据管道并发数说明

请参见:数据管道运维指导

2. 使用限制编辑

  • 管道任务仅支持在 独立部署 环境下使用。

  • 管道任务不支持同步视图和索引。

3. 功能概述编辑

2.png

功能
描述
数据源实时同步支持多种数据源,可以将多种来源端及目标端数据源搭配组成同步链路进行数据实时同步。数据管道支持的数据源请参见:数据管道支持的数据源类型
同步场景

同步对象说明:

同步对象
说明
单表/多表支持单表、多表实时同步
整库

支持一次性配置一个实例下多个库的多个

单个任务限制最多选取 5000 张表,达到限制时不允许新增选择

多对一4.1.8.1 及之后版本,支持多张结构相同的源表数据同步到一张目标表中,取所有源表字段的交集作为分组表的字段

同步类型说明:

详情请参见:同步类型

  • 存量+增量同步:先对所有存量数据完成同步,随后持续同步新增的变化数据(增/删/改)

  • 增量:任务仅包含增量阶段,任务初次运行时,将按照配置的起始时间开始进行增量同步

任务配置

1)任务配置前,需要先准备数据库环境、管道任务环境。详情请参见:数据管道使用说明 文档的第二章、第三章内

2)在 FDL 中配置管道任务时,步骤简单,无需编写代码;功能丰富。详细说明如下:

步骤
亮点
选择数据来源
  • 选择来源表时,支持搜索表名,点击表名即能选中源表

  • 支持快速选表功能,可批量选择多表

选择数据去向
  • 可设置目标表执行物理删除(实际删除数据)还是逻辑删除(不实际删除数据,只是标记删除数据)

  • 同步时可标记时间戳,记录数据在数据库中实际新增和更新的时间数据库所在时间

  • 用户可根据实际需要选择是否开启 同步源表结构变化 功能

  • 支持设置无主键同步

表字段映射
  • 目标表可选择已存在表、或自动建表

  • 支持批量修改表名、表建立方式

  • 支持筛选,筛选条件为:目标表配置是否有异常、目标表是否有主键、表建立方式、是否已映射的目标表字段、是否有异常的目标表字段

特别说明:

  • 4.1.9.3 及之后版本,支持统一对多个使用同一数据连接的管道任务自定义字段类型映射规则;详情请参见:通用配置-字段映射规则

  • 4.0.18 及之后版本,目标表为自动建表时,表名和字段名支持大小写转换;表名、字段名支持大小写自动纠正;详情请参见:通用配置-自动建表配置

  • 目标表为自动建表时,支持指定分区、分布键;详情请参见:读取、创建、写入分区表

管道控制
  • 支持设置脏数据上限,达到上限则自动终止管道任务

  • 支持设置失败重试,当管道任务由于当时的网络波动或者其他原因,运行中断,设置失败重试后可自动重新运行任务

  • 当任务异常时可进行通知,通知渠道支持:短信、邮件、平台消息、钉钉群机器人、飞书群机器人、企业微信群机器人

  • 可设置管道任务的日志等级,满足用户按需查看日志、调试和排错的需求;可以在更细粒度的日志等级里,打印详细的日志,供用户查看

任务运维

详情请参见:管道任务运维

  • 支持修改、复制、重命名、移动、导入导出、删除管道任务

  • 支持查看管道任务运行状况、查看读写统计、查看日志、处理脏数据

  • 支持批量启动/暂停管道任务

  • 提供脏数据清单,待数据同步完成后,针对脏数据批量校准,校准后数据单独同步

数据中心

4.1.6.1 及之后版本,可在 FDL 的 库表管理 功能中,查看、修改表数据(快速检查实时同步效果)

4.1.11.1 及之后版本,可查看管道任务中所使用数据表的血缘关系,详情请参见:血缘分析

其他

4.1.9.3 及之后的版本支持使用「回收站」进删除任务的还原、管理,详情请参见:回收站

4.1.6.3 及之后版本,管道任务禁止被多人同时编辑,详情请参见:任务禁止被多人同时编辑

4. 使用说明编辑

1)数据管道功能使用说明请参见:数据管道使用说明

2)用户想了解某个管道任务是谁编辑的、编辑时间、断点相关信息等,FDL 工程内的管道任务运维无法满足需求,可参见解决方案:BI仪表板展示管道任务编辑信息

3)用户的管道任务实现上百张表的实时同步,且存在部分来源表和目标表的表名不同、多张来源表同步到一张目标表情况,导致用户在管理来源表和目标表的对应关系时(例如重构任务)较为困难。可参见解决方案:导出管道任务中来源表及对应的目标表信息