1. 概述
1.1 版本
FineDataLink 版本 | 功能变动 |
---|---|
数据来源支持服务器数据集,支持从 CSV、Excel 文件中读取数据 | |
4.1.3 | 1)数据来源Tab下,「数据源」中选择DB表输入类型时,新增「配置方式」设置项,「配置方式」设置项中可选择SQL、选表(本版本新增功能)、存储过程(本版本新增功能)
2)可修改目标表的字段名 3)通过「手动建表」功能,可自定义建表的SQL语句,例如修改字段名、字段类型、定义各种表的特性等 |
4.1.5.4 | 数据来源 Tab 中,配置方式选择「选表」时,显示表备注 |
4.1.11.5 | 配置方式选择「选表」时,若选择了指定数据表,界面展示表所在数据库或者模式 |
4.1.13.2 | 配置方式为「选表」时,支持选字段 |
1.2 功能简介
本文介绍「数据同步」设置数据来源或者使用「数据转换-DB表输入」时的配置项说明。
「数据同步-数据来源」Tab 界面如下图所示:
若发现取出的数据需要进行一些复杂的操作,例如行列转换、数据关联、JSON解析等数据处理和转换,则可以使用「生成数据转换」功能。
2. 数据源
FineDataLink支持的数据源 文档的第三章内容(支持数据读取的数据库)。
只展示已配置过数据连接且当前用户有数据连接使用权限的选项。
3. 配置方式
「数据源」中选择DB表输入类型时,有「配置方式」设置项,「配置方式」设置项中可选择SQL、选表、存储过程。
3.1 SQL
通过 SQL 语句从源数据库的表中查询取数,且支持引用参数,参数的具体介绍请参见:参数概述
用户可选择指定的数据库,并在该数据库下搜索需要的数据表,然后写入右侧 SQL 输入框,如下图所示:
注:若选择的数据连接对应有使用权限的数据库有多个,则数据库语法使用表名格式需要为:库.表名。
3.2 选表
页面如下图所示:
支持「选表」功能的算子/节点:DB表输入、数据同步、参数赋值、全局参数中,数据源类型选择「DB表输入」类型。
3.2.1 来源表
选择来源表,不能为空。
4.1.13.2 及之后版本,支持选择部分字段。如下图所示:
选字段功能说明如下:
1)选字段时若全选字段,后续该表新增的字段,不会被当成选中的状态。
2)「数据来源」Tab 中,未选的来源表的字段,在「数据过滤」功能中,可被联想出来。
3)已被选择的字段,若希望取消选择,有两种方案:
4)「数据去向与映射」Tab 下,字段映射来源端中,仅展示已选的字段;「筛选」和「重新获取」操作,仅对已选的字段有用。
5)「写入方式」Tab下,设置主键时,仅展示已选字段。
6)DDL 说明:
选择字段后,「数据去向与映射」Tab 下,源表结构变化监测功能不可用。
DDL 变更,针对已选字段的结构变化来监测,「更新字段映射」功能不受影响。
3.2.2 表描述
DB表输入、数据同步、参数赋值中,数据源类型选择「DB表输入」类型,配置方式选择「选表」时,显示表备注。若目标表选择自动建表,目标表的表备注默认为来源表的表备注。
需注意:
不支持该功能的数据库:ClickHouse、Hive、Impala、TRANSWARP INCEPTOR、Informix、MaxCompute、SQLite、StarRocks。
更多说明可参见:数据同步-数据去向与映射
3.2.3 数据过滤
可为空
可过滤来源表的数据,内容为:使用所选数据库的语法编写 WHERE 条件语句(无需填写 WHERE 关键字)
支持引用各类参数
支持联动参数值;支持联动数据表中字段
不支持写 limit 语句
3.2.4 并行取数
在数据量很大时,开启「并行取数」,可提高读取数据的速度。
开启并行取数后,写入方式选择追加写入数据且设置逻辑主键,可能导致数据重复。
设置项 | 说明 |
---|---|
并行取数开关 | 默认关闭 同时满足以下三条才生效:
|
切分键 |
|
读取并发数 | 不能为空,用户可修改读取并发数 实际执行时,并发数不会超过 CPU 核数 并发数只代表并发执行的线程数,不代表实际切分的任务数;所以 日志统计Tab下 ,可能会出现并发数为 2 ,实际切分的任务数为 3 的情况 |
3.3 存储过程
详情请参见:定时任务调用数据库存储过程