1. 概述编辑
1.1 版本
FineDataLink 版本 | 功能变动 |
---|---|
4.0.4 |
|
1.2 应用场景
用户在 ETL 任务中,需要将业务库数据抽取至 Greenplum 数据库进行分析,在相对小的时间窗口内完成大数据量的数据装载。
1.3 功能简介
4.0.4 版本数据源类型和数据输出适配 Greenplum、Greenplum(并行装载)数据库,Greenplum 作为输出库时,支持并行装载以提升数据装载速度。
2. 前提条件编辑
2.1 确认数据库版本
Greenplum(并行装载)支持的版本为:5.X 和 6.X 。
2.2 确认数据库数据类型
并行装载方式不可同步二进制类型字段,如果选择了此类字段进行装载,则在装载时报错(直接抛出数据库装载时报错),二进制字段只能通过JDBC方式进行装载,也就是使用Pivotal Greenplum 数据连接。
2.3 放置 gpfdist 文件
Linux系统:gpfdist_linux.tar.gz
1)将该压缩包上传到 Linux 服务器上。
解压到:%FineDataLink%\webapps\webroot\WEB-INF下
注:安装包版本需要解压到%FineDataLink%\env\WEB-INF下。
2)将 bin 文件夹中的 gpfdist 文件与 lib 文件夹放在同一层级上,删除 bin 文件夹。
3)将 gpfdist_linux 文件夹名称修改为 gpfdist 。
最终效果如下图所示:
Windows 系统:
可联系技术支持获取包。技术支持联系方式:QQ「800049425」、电话「400-811-8890」
注:Windows 下 gpfdist 需要基于源码再自行编译 gpfdist.exe 才能使用(Linux 已编译)。在 Win 版本中,暂不随安装包集成 gpfdist 相关组件,Linux 版本随安装包集成。
注2:最大单行数据大小支持 1M(Win最大支持值),不允许修改。
3. 配置 Greenplum(并行装载)数据源编辑
3.1 上传驱动
下载驱动包,并将其上传到 FineDataLink ,详情参见:驱动管理 第 2 节。
驱动包下载 |
---|
PostgreSQL驱动,请下载最新版 |
3.2 配置数据连接
1)登录 FineDataLink,点击「管理系统>数据连接>数据连接管理」,点击「新建数据连接」,选择「Greenplum(并行装载)」,如下图所示:
注:如果非管理员用户想要配置数据连接,需要管理员给其分配管理系统下数据连接节点的权限,具体操作请查看 数据连接权限控制
2)输入连接信息。驱动选择「自定义」,并勾选 3.1 节上传的驱动。
模式需要连接数据库后才可以选择,所以需要先点击「点击连接数据库」后,再选择「模式」,如下图所示:
3)Greenplum(并行装载)与 Greenplum 数据连接的区别是多了并行装载的设置项,如下图所示:
配置项 | 说明 |
---|---|
服务器地址-节点1 | 输入 2.2 节 gpfdist 服务地址,要求配置 FDL 所在服务器上能被 SEG 访问到的 IP 当数据平台所在环境为集群环境时,展示多个配置项,配置项均为可输入下拉框,配置名为:服务器地址-节点X |
复用临时表 | 是否复用临时表(复用临时表在高频装载时,可有效降低系统表膨胀速度) 勾选后,实际运行时,将自动尝试新建「gpfdist_temp」模式并使用 |
临时文件条数限制 | 默认值:100000;范围:10000~100000000;必填 落盘的临时文件条数;配置值可根据用户环境的磁盘大小、网络速率调整 |
临时文件大小限制(MB) | 默认值:1024;范围:10~102400;必填 落盘的文件大小限制;满足条数与文件大小任一限制时,停止数据文件写入操作,立即进行文件装载 |
4)点击测试连接,连接成功即可保存。
4. 数据开发中使用数据源编辑
4.1 数据输入
数据输入适配 Greenplum、Greenplum(并行装载)数据库。
示例:「数据同步>数据来源>数据源类型」中可选择 Greenplum、Greenplum(并行装载)。如下图所示:
「数据转换>DB表输入」中也可以使用该数据源。
4.2 数据输出
数据输出适配 Greenplum、Greenplum(并行装载)数据库。
1)示例:
「数据转换>DB表输出>数据去向>数据源类型」中可选择 Greenplum、Greenplum(并行装载)。如下图所示:
2)选择 Greenplum(并行装载)数据库说明
其中,选择 Greenplum(并行装载)时,界面如下图所示:
说明如下所示:
1)若不勾选「启用并行装载」,将以 jdbc 做串行装载。
2)若勾选「启用并行装载」,将以 gpfdist 协议做并行装载,更新策略覆盖为:比对字段遇相同值,覆盖目标表的数据
3)并行装载方式分为插入、合并。
插入:直接向目标表 INSERT ;合并:比对字段遇相同值时,做更新,否则做插入。
写入方式为「清空目标表再写入数据」时,装载方式固定为「插入」。
写入方式为「直接将数据写入目标表」时,如果选择了比对字段,装载策略为「合并」;未选择比对字段时,装载策略为「插入」。
4)gpfdist 默认使用 15500 端口。
5)二进制类型字段不支持在勾选「启用并行装载」的时候同步。