历史版本50 :数据管道概述 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 应用场景

企业在在构建数仓和中间库时,由于业务数据量级较大,如果使用 数据同步 批量定时同步数据很难做到高性能的增量同步,若使用清空目标表再写入数据的方式时,还会面临目标表一段时间不可用、抽取耗时长等问题。

因此希望能在数据库数据量大或表结构规范的情况下,实现高性能的「实时数据同步」。

1.2 功能说明

FineDataLink 监听数据管道来源端的数据库日志变化,利用 Kafka 作为数据同步中间件,暂存来源数据库的增量部分,进而实现向目标端实时写入数据。

持对数据源进行单表、多表、整库数据的实时全量和增量同步,可以根据数据源适配情况,配置实时同步任务。

1705921019153311.png

2. 约束限制编辑

  • 管道任务仅支持在「独立部署」环境下使用。

  • 若需要使用数据管道功能,则需要参考文档注册相关功能:注册简介

  • 管道任务不支持同步视图和索引。

3. 功能概述编辑

25.png

功能
描述
多种数据源间的数据同步

实时同步支持多种数据源,可以将多种来源端及目标端数据源搭配组成同步链路进行数据实时同步

数据管道支持的数据源请参见:数据管道支持的数据源类型

数据同步场景

1)持对数据源进行单表、多表、整库数据的实时全量和增量同步:

  • 单表数据实时同步:支持单表实时同步。

  • 整库数据实时同步:支持一次性配置一个实例下多个库的多个表单个任务限制最多选取 5000 张表,达到限制时不允许新增选择

2)同步类型为:

  • 存量+增量同步:先对所有存量数据完成同步,随后持续同步新增的变化数据(增/删/改)

  • 增量:任务仅包含增量阶段,任务初次运行时,将按照配置的起始时间开始进行增量同步

实时数据同步任务配置

实时同步任务配置无需编写代码,通过简单的任务配置即可实现单表、整库实时数据的同步

详情请参见:配置数据管道任

1)设置目标端:

  • 支持在目标端自动新建同步数据表、同时也可以选择目标端数据库已有数据表进行数据同步

  • 来源数据源会包含许多DDL操作,进行实时同步时,开启相关选项后,在源库发生DDL(删除表、新增字段、删除字段、修改字段名称、修改字段类型(长度修改 & 兼容类型修改))时,管道任务可以自动同步这些来源端变化至目标端,不需人为介入修改目标表结构。

关于实时同步各目标端支持的DDL操作详情请参见:同步源表结构变化

  • 支持逻辑删除数据和显示数据存储入库时间戳    

  • 支持断点续传

2)设置字段映射:

  • 支持调整字段映射方式以及目标数据库数据表的字段类型和字段顺序,默认同名映射

  • 支持批量修改目标表表名

3)设置管道控制:

  • 支持设置脏数据阈值,当异常或脏数据导致的任务中止会进行通知

  • 支持设置失败重试,当管道任务由于当时的网络波动或者其他原因,运行中断,设置失败重试后可自动重新运行任务

  • 当任务异常时可进行通知,通知渠道支持:短信、邮件、平台消息、钉钉群机器人、飞书群机器人、企业微信群机器人

  • 可设置管道任务的日志等级,满足用户按需查看日志、调试和排错的需求可以在更细粒度的日志等级里,打印详细的日志,供用户查看

    实时同步任务运维

    支持对同步任务进行监控,详情请参见:管道任务运维

    • 支持查看管道任务运行情况

    • 支持对脏数据进行处理

    • 支持批量启动/暂停管道任务

    4. 操作流程编辑

    注:配置管道任务完整示例请参见:管道任务示例

    步骤
    步骤一:数据源配置

    根据实际情况选择源端和目标端数据库,数据管道支持的数据库请参见:数据管道支持的数据源类型

    在数据连接管理中配置源端和目标端的数据连接,便于在管道任务配置过程中,通过选择数据源名称来控制同步任务的读取和写入数据库。详情请参见:配置数据连接

    步骤二:准备数据库环境

    基于需要设置数据管道任务的数据源,授予数据源配置的账号在数据库进行相应操作的权限。详情请参见:数据库环境准备概述

    步骤三:管道任务环境准备

    部署 Kafka 开源流处理平台作为中间件。详情请参见:部署Kafka配置传输队列

    步骤四:分配管道任务权限

    若需要使用数据管道的用户不是超级管理员,则需要为对应用户分配数据管道的使用权限。详情请参见:管道任务管理权限

    步骤五:配置数据管道任务

    详情请参见:配置数据管道任务

    管道任务运维:单个管道任务管理管道任务运维