1. 概述
1.1 版本
FineDataLink 版本 | 功能变动 |
---|---|
4.1.3 | 数据写入Hive、星环 TRANSWARP INCEPTOR数据库时,支持创建、写入分区表 |
4.2.0.2 | 支持读取 Impala 数据库的 kudu 分区表 支持写入 Impala 数据库的 kudu 分区表 |
4.2.7.2 | 支持读取 GaussDB 100/GaussDB T 数据库的分区表 |
4.2.7.3 |
|
历史版本更新 | ||||||||||
|
1.2 应用场景
大数据量的数据存储场景下,为提高查询性能,许多数据库都提供了分区表的功能,希望 FDL 可以读取、创建、写入分区表。
1.3 功能简介
部分数据库支持选择分区表作为「数据来源」和「数据去向」、自动建表支持设置分区键和分布键。
2. 读取分区表数据
支持位置 | 支持数据源 |
---|---|
定时任务 | PostgreSQL、Greenplum、Gauss200、YMatrix、PolarDB PostgreSQL、 Impala 数据库的 kudu 分区表、GaussDB 100/GaussDB T、Doris、StarRocks |
数据服务 | PostgreSQL、Greenplum、Gauss200、YMatrix、PolarDB PostgreSQL、Doris、StarRocks |
定时任务和数据服务支持读取数据源的分区表,如下图所示:
注:Doris、StarRocks 数据库的分区表图标与非分区表图标一致,没有区分。
3. 写入数据到已存在的分区表
支持位置 | 支持数据源 |
---|---|
定时任务 | PostgreSQL(4.1.9.3 及之后版本支持)、Greenplum(4.1.9.3 及之后版本支持)、Gauss200(4.1.9.3 及之后版本支持) YMatrix (4.1.11.2 及之后版本支持) PolarDB PostgreSQL(4.1.11.3 及之后版本支持)、 Impala 数据库的 kudu 分区表(4.2.0.2 及之后版本支持)、Doris(4.2.7.3 及之后版本支持)、StarRocks(4.2.7.3 及之后版本支持) |
管道任务 |
定时任务和管道任务支持选择目标表是分区表,如下图所示:
4. 自动建表支持分区键设置
支持位置 | 支持数据源 |
---|---|
定时任务 | Hive(4.1.3 及之后版本)、星环 TRANSWARP INCEPTOR(4.1.3 及之后版本)、MaxCompute(4.1.11.4以及之后版本)、PostgreSQL(4.1.9.3 及之后版本)、Greenplum(4.1.9.3 及之后版本)、Gauss200(4.1.9.3 及之后版本)、YMatrix(4.1.11.2 及之后版本)、PolarDB PostgreSQL(4.1.11.3 及之后版本)、 Impala 数据库的 kudu 分区表(4.2.0.2 及之后版本支持)、Doris(4.2.7.3 及之后版本支持)、StarRocks(4.2.7.3 及之后版本支持) |
管道任务 | PostgreSQL(4.1.9.3 及之后版本)、Greenplum(4.1.9.3 及之后版本)、Gauss200(4.1.9.3 及之后版本)、YMatrix(4.1.11.2 及之后版本)、PolarDB PostgreSQL(4.1.11.3 及之后版本)、Impala 数据库的 kudu 分区表(4.2.0.2 及之后版本支持)、Doris(4.2.7.3 及之后版本支持)、StarRocks(4.2.7.3 及之后版本支持) |
5. 自动建表支持指定分布键
支持位置 | 支持数据源 |
---|---|
定时任务 | Gauss200、Greenplu、YMatrix |
管道任务 |
定时任务和管道任务目标表配置为「自动建表」时,增加相关配置,支持指定哈希分布键。
注:目前哈希分布下支持指定分布键,暂不支持随机分布和复制分布。
分布键可以不配置,不配置分布键时,将走数据库默认逻辑指定分布键(默认是使用主键或者表的第一个列作为分布键),如下图所示:
6. 写入方式支持分区写入
数据同步节点、数据转换>DB表输出算子中:
数据写入 Hive、星环 TRANSWARP INCEPTOR 、MaxCompute 数据库时,当选择的目标表是分区表(包含分区键),或自动建表时定义了分区键,写入方式新增「分区写入」设置项。如下图所示:
分区级别、分区键均为自动获取,无法自定义;用户可配置写入方式、分区值。
写入方式:可选择静态分区、动态分区。
分区值:静态分区写入时,需要为分区键配置分区值。