历史版本35 :数据管道概述 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本说明

 FineDataLink 版本
功能变动
4.0.6支持Mysql 作为读取和写入数据源
4.0.18支持 Oracle18c、19c、Oracle RAC集群作为读取数据
4.0.20.1支持0.10.2到3.4的Kafka版本作为读取数据源
4.0.23

支持 Doris 作为 写入数据源

4.0.24支持 StarRocks 作为写入数据源


查看历史版本更新
FineDataLink 版本功能变动
4.0.7

支持SQL Server作为读取和写入数据源

支持 Oracle 作为读取数据源

4.0.8支持 GaussDB 200 作为写入数据源
4.0.9支持 Oracle 、PostgreSQL 作为写入数据源
4.0.15支持Greenplum、Greenplum(并行装载)作为写入数据源


1.2 应用场景

企业在在构建数仓和中间库时,由于业务数据量级较大,如果使用数据同步批量定时同步数据很难做到高性能的增量同步,若使用清空目标表再写入数据的方式时,还会面临目标表一段时间不可用、抽取耗时长等问题。

因此希望能在数据库数据量大或表结构规范的情况下,实现高性能的「实时数据同步」。

1.3 功能说明

FineDataLink监听数据管道来源端的数据库日志变化,利用 Kafka 作为数据同步中间件,暂存来源数据库的增量部分,进而实现向目标端实时写入数据。

持对数据源进行单表、多表、整库数据的实时全量和增量同步,可以根据数据源适配情况,配置实时同步任务。

本文为你介绍数据管道数据同步支持的数据源情况。

2. 约束限制编辑

  • 管道任务仅支持在「独立部署」环境下使用。

  • 管道任务不支持同步视图和索引。

3. 功能概述编辑

功能
描述
多种数据源间的数据同步

实时同步支持多种数据源,可以将多种来源端及目标端数据源搭配组成同步链路进行数据实时同步。

详情请参见本文第五节。

数据同步场景

持对数据源进行单表、多表、整库数据的实时全量和增量同步。

  • 单表数据实时同步:支持单表实时同步。

  • 整库数据实时同步:支持一次性配置一个实例下多个库的多个表,单个任务限制最多选取 5000 张表,达到限制时不允许新增选择。

同步类型为存量+增量同步:先对所有存量数据完成同步,随后持续同步新增的变化数据(增/删/改)

实时数据同步任务配置

实时同步任务配置无需编写代码,通过简单的任务配置即可实现单表、整库实时数据的同步。详情请参见:配置数据管道任

1)设置目标端:

  • 支持在目标端自动新建同步数据表、同时也可以选择目标端数据库已有数据表进行数据同步。

  • 来源数据源会包含许多DDL操作,进行实时同步时,开启相关选项后,在源库发生DDL(删除表、新增字段、删除字段、修改字段名称、修改字段类型(长度修改 & 兼容类型修改))时,管道任务可以自动同步这些来源端变化至目标端,不需人为介入修改目标表结构。

关于实时同步各目标端支持的DDL操作详情请参见:同步源表结构变化

  • 支持逻辑删除数据和显示数据存储入库时间戳    注:GaussDB数据库及PostgreSQL9.4以下(含9.4)版本数据库,不支持「目标端执行逻辑删除」。

  • 支持断点续传。

2)设置字段映射:

  • 支持调整字段映射方式以及目标数据库数据表的字段类型和字段顺序,默认同名映射。

3)设置管道控制:

  • 支持设置脏数据阈值,当异常或脏数据导致的任务中止会进行通知      注:限制最多10w行,且重启任务后,会重置阈值统计

    实时同步任务运维

    支持对同步任务进行监控,详情请参见:管道任务运维

    • 支持对任务运行状态、同步数据量等进行监控。

    • 并通过邮件、短信、电话和钉钉等方式将报警信息发送给报警接收人,方便您及时发现并处理任务异常。

    4. 操作流程编辑

    使用 FineDataLink 数据管道进行数据同步的操作流程如下:

    1)数据源配置。在进行数据管道任务配置前,配置好需要同步的源端和目标端数据库,以便在同步任务配置过程中,可通过选择数据源名称来控制同步任务的读取和写入数据库,详情参见:配置数据连接

    2)数据源环境已准备完成:基于需要设置数据管道任务的数据源,授予数据源配置的账号在数据库进行相应操作的权限。详情请参见数据库环境准备概述

    3)部署 Kafka 开源流处理平台作为中间件,详情参见:部署Kafka

    4)若需要使用数据管道的用户不是超级管理员,则需要为对应用户分配数据管道的使用权限,详情参见:管道任务管理权限

    5)完成上述操作即可配置数据管道任务:配置数据管道任务

    5. 数据管道支持的数据源编辑

    数据源
    读取写入环境准备日志解析方式
    MySQLMYSQL 5.6及以上的非只读数据库MYSQL 5.6及以上的非只读数据库

    MySQL环境准备Binlog
    SQL Server

    企业版(Enterprise Edition)

    2008 

    2012

    2014

    2016 

    2017

    2019

    标准版(Standard)

    2016 SP1 

    2017

    2019

    2000

    2005

    2008

    2012

    2014

    2016

    2017

    2019

    SQL Server 环境准备CDC
    Oracle Oracle 10g、11g、12c、18c、Oracle19c 、Oracle RAC集群


    • 不支持 CDB(CDB/PDB 模式的数据库),只支持 Non-CDB

    Oracle 环境准备

    读取数据限制请参阅:

    数据管道-Oracle读取数据限制说明

    LogMiner
    PostgreSQLPostgreSQL 9.4及以上的单实例非只读数据库postgresql_9.4.7;9.5.0;PostgreSQL环境准备 wal2json
    Greenplum、Greenplum(并行装载)开发中5.X 和 6.X Greenplum(并行装载)作为目标端时,需要数据库用户具有CREATE SCHEMA和CREATE TABLE权限。数据装载时,将新建名为fdl_temp的模式用于存放临时表。
    Kafka0.10.2到3.4版本开发中






    Doris暂不支持0.14及以上版本

    StarRocks暂不支持1.19 及以上版本