历史版本25 :数据比对典型示例 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

[helpvideo]5450[/helpvideo]

1.1 版本

FineDataLink 版本功能变动
3.3数据转换节点新增算子「比对删除」,可将来源表中删除数据的操作同步到目标表
4.0.18
  • 「数据转换」节点移除「比对删除」算子,新增「数据比对」算子

  • 通过数据比对+DB表输出的组合方式,可完成增量插入、删除、更新的操作

4.0.20新增「比对表返回字段」选项,可选项为比对表的所有字段。一般在当「数据比对」算子连接的比对表算子类型为「简道云输入」算子时,才会设置该选项

注:未升级到 4.0.18 及之后版本的用户,请参见文档:比对删除

1.2 功能简介

同步数据时,来源表数据会新增、修改、删除,此时如果需要目标表数据也做这些操作,可以通过数据比对+DB表输出的组合方式,完成增量插入、删除、更新的操作。

注:更多数据定时更新方案详情参见:数据更新专题

15.png

2. 示例编辑

2.1 场景模拟

示例数据下载:fsale.xlsfsalecopy.xls

需要定期将 fsale 表中的数据同步到 fsalecopy 表中。

fsalecopy 表中的数据如下图所示:

1678327226218763.png

现在 fsale 表中删除了「甘蔗」和「冻梨」的数据,增加了「葡萄」的数据,更新了「菠萝」的数据。希望将最新数据同步到 fsalecopy 表中去。

1678327234860886.png

2.2 实现思路

「数据比对」算子与「DB表输出」算子组合使用,才能完成目标表的增删改操作。

1)需要先准备两个输入/计算算子,作为来源表和目标表,本文示例准备的是 fsalecopy 表和 fsale 表。

2)「数据比对」算子中,需要设置以下三项:

  • 逻辑主键:用于在两张表中识别同一条数据,即通过「逻辑主键」将来源表和目标表的数据对应起来,所以「逻辑主键」的值不建议为空或者相同,本文示例中,「逻辑主键」为 ID。

  • 比对字段:用于对比两张表中该字段的差异,若某个字段没有被选择到比对字段中,能识别出该字段的增加和删除,但这个字段若存在更新,将不能被识别。基于比较结果会生成标记列 fdl_comparison_type ,该列可以在「DB表输出」算子的字段映射中删除。

  • 标识关系:标记列 fdl_comparison_type 的值,用于标记两张表中同一个字段的差异。默认值为:Identical、Changed、Added、Removed,可以自定义标识关系值。

1686209753547931.png

3)「DB表输出」算子中,写入方式选择「插入/更新/删除数据」,可选择逻辑删除还是物理删除。标识值需要与「数据比对」算子中的标识关系值一一对应。逻辑主键与「数据比对」算子的相同即可,为 ID 。

1686209971769428.png

2.3 设置来源表和目标表

2.3.1 创建任务

创建一个定时任务,将一个数据转换节点拖到设计界面。如下图所示:

20.png

2.3.2 设置来源表

1)点击「数据转换」节点,将一个DB表输入算子拖到数据转换的设计界面,在节点信息」Tab 下为其重命名为来源表。如下图所示:

22.png

2)如下图设置数据来源,SQL 语句取出 fsale 表中所有数据。

21.png

2.3.3 设置目标表

再添加一个「DB表输入」算子,重命名为「目标表」。SQL 语句取出 fsalecopy 表中所有数据。如下图所示:

23.png

2.4 设置数据比对

1)添加一个数据比对算子,并使用线条跟它上游的两个DB表输入算子相连。如下图所示:

24.png

2)数据比对算子中,由于来源表和目标表中可以通过 ID 字段进行关联,所以选择 ID 作为逻辑主键;由于来源表和目标表的 sales 字段可以查看两张表的数据差异情况,所以选择 sales 作为比对字段。标识关系值用来标记数据变化,可自定义。具体设置如下图所示:

注:1:「比对源」是自动生成的。

注2:当「数据比对」算子连接的比对表算子类型为 简道云输入 时,才需要在更多配置中设置比对表返回字段的值为_id 。

1686210532819834.png

数据预览Tab 页如下图所示:

26.png

2.5 设置 DB 表输出

1)新增「DB表输出」算子,使用连接线与「数据比对」算子相连。

2)设置「DB表输出」算子,最新数据存到目标表 fsalecopy 中,写入方式选择「插入/更新/删除数据」,写入方式选择「物理删除」,逻辑主键选择 ID ,标识字段选择 fdl_comparison_type ,标识值需要与数据比对算子的「标识关系」值一一对应。如下图所示:

27.png

3)点击「字段映射」,删除目标表字段 fdl_comparison_type 。如下图所示:

28.png

4)点击右上角「保存」按钮。

2.6 运行任务

点击右上角保存并运行,日志出现执行成功信息表示任务成功运行。如下图所示:

29.png

可以看到 fsalecopy 表与 fsale 表数据保持一致。如下图所示:

1676354789864805.png

3. 功能说明编辑

3.1 比对配置

1686210963419234.png

各设置项介绍如下表所示:

设置项
说明备注
比对源
  • 需要前置 2 个输入/计算算子

  • 原始表:数据比对的底表,即左表,一般是数据来源表

  • 比对表:数据比对的比对表,即右表,一般是数据目标表

  • 只限 2 个前置算子

  • 「原始表」和「比对表」均需要配置,不能为同一张数据表

逻辑主键

用于在两张表中识别同一条数据,即通过「逻辑主键」将来源表和目标表的数据对应起来

逻辑主键的值不建议为空或者相同
比对字段

用于对比两张表中该字段的差异,基于比较结果会生成标记列 fdl_comparison_type ,该列可以在「DB表输出」算子的「字段映射」中删除

「比对字段」配置可以为空:
  • 不为空:4 种标记数据都能筛选出来

  • 为空:只能筛选出标记列为 Added、Removed、Identical 的数据,不能识别 changed

标识关系默认新增标记列,列名为 fdl_comparison_type,值默认为四种:
  • 左右表均有数据,且左表等于右表(值为 Identical)

  • 左右表均有数据,但左表不等于右表(值为 Changed)

  • 左表有数据,右表没有(值为 Added)

  • 左表没有数据,右表有(值为 Removed)

支持用户自定义 4 种标记值,但是 FDL 程序需要能自动映射

例如:

例如针对比对更新场景,支持用户将 Identical 改成 same ,Changed 改成 diff ,Added 改成 add,Removed 改成 delete,但是程序能够识别这种映射关系,并且在后续的DB 表输出能够自动填充

「DB表输出」算子的「标识值」需要与「数据比对」算子中的「标识关系」值一一对应

比对表返回字段1)可选项为比对表的所有字段,一般情况下默认为空

2)当「数据比对」算子连接的比对表算子类型为 简道云输入 时,需要设置比对表返回字段的值为_id

3)遇到同名字段时,比对表返回字段下拉时对重名字段名后缀自动加1,格式为:column1、column2、column3,重名新增后缀的逻辑同数据关联算子

使用场景请参见:简道云输出

3.2 数据预览

1686212169817047.png

「数据预览」Tab 中,预览时只会取前 5000 行数据。如果来源表前 5000 行数据中的某些数据,在目标表的 5000 行数据之后存在,在「数据预览」Tab 中,标记列对应的值将会是 Added,但实际上应该是 Identical。但「数据比对」算子运行时,是比对所有数据的,用户无需担心,「数据预览」Tab 未全量读取数据的问题,产品未来考虑优化。