反馈已提交

网络繁忙

配置Greenplum数据源

  • 文档创建者:Wendy123456
  • 历史版本:36
  • 最近更新:Wendy123456 于 2024-03-07
  • 1. 概述

    1.1 版本

    FineDataLink 版本功能变动
    4.0.4
    • 「管理系统>数据连接>数据连接管理」中,可新建 Greenplum(并行装载)数据连接

    • 数据输入适配 Greenplum、Greenplum(并行装载)

    • 数据输出适配 Greenplum、Greenplum(并行装载)

    4.0.14部署包内置GP(并行装载)的gpfdist文件
    4.0.29新建数据连接时,GreenPlum(并行装载)Pivotal Greenplum Database数据源,合并为Pivotal Greenplum Database
    4.1.2
    • 定时任务中,Greenplum 数据源支持 COPY 方式写入数据,支持写入二进制字段和 JSON 字段

    • 并行装载方式支持写入 JSON 类型字段

    • 并行装载方式,支持插入/更新/删除数据写入方式;主键冲突策略可选择:主键相同,忽略输入源的数据主键相同,记录为脏数据主键相同,覆盖目标表的数据

    1.2 功能简介

    • 定时任务支持读取和写入 Greenplum 数据库。

    • 数据管道任务中支持写入至 Greenplum 数据库。

    • 数据服务支持 Greenplum 数据库。

    2. 配置须知

    2.1 管道任务

    数据管道使用 GreenPlum 作为目标表时,都是用的 COPY 装载模式。

    在使用并行装载数据源前,需要赋予数据连接对应用户指定权限。

    1)可以赋予数据连接账号在对应数据库创建模式的权限。

    2)在目标数据库先创建 fdl_temp 模式用来存放临时表,然后赋予普通用户这个模式的建表权限即可。

    示例命令如下:

    GRANT USAGE,CREATE ON SCHEMA fdl_temp TO trans_user ;
    ALTER DEFAULT PRIVILEGES IN SCHEMA fdl_temp GRANT SELECT, INSERT, UPDATE, DELETE, REFERENCES, TRIGGER ON TABLES TO trans_user ;
    GRANT USAGE,CREATE ON SCHEMA fdl_temp TO trans_user ;

    2.2 定时任务

    若用户需要使用 GreenPlum 作为写入端数据源时,支持三种装载方式:并行装载、COPY装载、普通装载。三种装载方式区别如下表所示:

    装载方式
    区别
    普通装载

    1)向 GreenPlum 写入数据时,不建议选择该方式

    2)若只从 GreenPlum 读取数据,建议按照本文第四章步骤配置数据连接

    并行装载

    1)4.1.2 及之后版本,支持写入 JSON 类型字段,但仍不支持写入二进制字段

    2)并行装载在大数据量、大规模集群场景下性能优于 COPY

    3)配置数据连接时需按照本文第三章步骤操作,配置并行装载设置

    注:若选择并行装载方式,需要进行权限指定。

    COPY装载(4.1.2 版本新增)

    1)支持写入二进制字段、JSON 字段

    2)配置数据连接时,参考本文第四章即可,不用配置并行装载设置

    • 若选择 COPY 装载方式,需要在目标数据库先创建 fdl_temp 模式用来存放临时表,需要用户有建表、建指定模式的权限(如果已由 DBA 建好模式并赋权,数据库用户可不需要建schema的权限)

    2.2.1 并行装载方式赋权

    使用 GreenPlum 作为目标表时,若使用并行装载模式,则需要进行权限指定。

    1)gpfdist_temp 模式下的建表和已有表的读取权限。

    注:若不想设置已有表的读取权限,也可以将该模式下 ext_gpload_* 和 staging_gpload_* 表删除,需要先将使用并行装载的任务关停,移除后只需要有 gpfdist_temp 模式下建表权限即可。

    GRANT USAGE,CREATE ON SCHEMA gpfdist_temp TO trans_user ;

    2)建立外部表的权限。

    alter role trans_user with createexttable;

    3)目标表的读取权限,如果要自动建表的话还需要对应库的建表权限。

    ALTER DEFAULT PRIVILEGES IN SCHEMA gpfdist_temp GRANT SELECT, INSERT, UPDATE, DELETE, REFERENCES, TRIGGER ON TABLES TO trans_user ;

    2.2.2  COPY 装载方式赋权

    详情参见本文 2.1 节。

    2.3 数据服务

    数据服务支持 Greenplum 数据库,但需要配置「并行装载设置」项。数据服务请参见:数据服务概述

    3. 配置并行装载设置

    使用场景:请仔细查看本文第二章内容。

    3.1 前提条件

    3.1.1 确认数据库版本

    Greenplum(并行装载)支持的版本为:5.X 和 6.X 。

    3.1.2 确认数据库数据类型

    并行装载方式不可同步二进制类型字段,如果选择了此类字段进行装载,则在装载时报错(直接抛出数据库装载时报错),二进制字段只能通过 JDBC 方式进行装载,也就是使用本文第三章中的数据连接。

    3.1.3 放置 gpfdist 文件

    gpfdist 文件相关操作及存放位置说明如下表所示:

    FDL 工程
    操作gpfdist 文件位置

    1)4.0.14 之前版本

    2)用户的工程是从 4.0.14 之前版本升级到 4.0.21 之前版本

    参考本节内容%FineDataLink%\webapps\webroot\WEB-INF
    用户的工程是从 4.0.14 之前版本升级到 4.0.21 及之后版本%FineDataLink%\webapps\webroot\WEB-INF\assist
    用户使用 4.0.14 及之后版本的安装包部署工程驱动已内置;忽略本节内容

    Linux 系统:

    Linux系统:gpfdist_linux.tar.gz

    1)下载该压缩包后,直接将该压缩包上传到 Linux 服务器上,然后解压到:%FineDataLink%\webapps\webroot\WEB-INF\assist下。

    注:安装目录中不支持包含空格,否则会导致 gpload 读取不到文件。

    2)将 bin 文件夹中的 gpfdist 文件与 lib 文件夹放在同一层级上,删除 bin 文件夹。

    3)将 gpfdist_linux 文件夹名称修改为 gpfdist 。

    最终效果如下图所示:

    1688978841470042.png

    Windows 系统:

    1)获取安装包。

    %FineDataLink%\webapps\webroot\WEB-INF\assist下面建一个 gpfdist 文件夹,将获取的包编辑成 exe 后放到文件夹内。

    2)检查数据库所在服务器是否能访问到 FDL 工程服务器的 15500 端口,原因为:FDL 生成了 csv 文件,数据库直接读取 csv 文件来装载。

    3)检查创建数据连接的账号权限已经拥有建立模式和建表的权限。

    注:Windows 下 gpfdist 需要基于源码再自行编译 gpfdist.exe 才能使用(Linux 已编译)。在 Win 版本中,暂不随集成 gpfdist 相关组件,Linux 版本集成。

    注2:最大单行数据大小支持 1M(Win最大支持值),不允许修改。

    3.2 建立数据连接步骤

    3.2.1 上传驱动

    下载驱动包,并将其上传至 FineDataLink 中,如何上传详情可参见:驱动管理

    驱动包下载
    PostgreSQL驱动,请下载最新版

    3.2.2 配置数据连接

    1)登录 FineDataLink点击「管理系统>数据连接>数据连接管理>新建数据连接选择「Pivotal Greenplum Database」。如下图所示

    注1:如果非管理员用户想要配置数据连接,需要管理员给其分配管理系统下数据连接节点的权限,具体操作请查看 数据连接管理权限

    注2:4.0.29 之前版本,数据连接选择 GreenPlum(并行装载) 。

    2.png

    2)输入连接信息。驱动选择「自定义」,并勾选 2.2.1 节上传的驱动。

    模式需要连接数据库后才可以选择,所以需要先点击「点击连接数据库」后,再选择「模式」。如下图所示:

    3)若需要向 Greenplum 数据库写入数据,需要配置「并行装载设置」项。如下图所示:

    1693885238715906.png

    配置项说明
    服务器地址-节点1输入 2.1.3 节 gpfdist 服务地址,要求配置 FDL 所在服务器上能被 SEG 访问到的 IP 

    当数据平台所在环境为集群环境时,展示多个配置项,配置项均为可输入下拉框,配置名为:服务器地址-节点X

    复用临时表是否复用临时表(复用临时表在高频装载时,可有效降低系统表膨胀速度)

    勾选后,实际运行时,将自动尝试新建「gpfdist_temp」模式并使用

    临时文件条数限制

    默认值:100000;范围:10000~100000000;必填

    落盘的临时文件条数;配置值可根据用户环境的磁盘大小、网络速率调整

    临时文件大小限制(MB)默认值:1024;范围:10~102400;必填

    落盘的文件大小限制;满足条数与文件大小任一限制时,停止数据文件写入操作,立即进行文件装载

    4)点击「测试连接」,连接成功即可保存。

    4. 不配置并行装载设置

    使用场景:请仔细查看本文第二章内容。

    4.1 数据库版本

    5.X 和 6.X 。

    4.2 建立数据连接步骤

    与本文 3.2 节不同的是,无需配置「并行装载设置」项。

    5. 使用数据源

    数据源在 FineDataLink 中的使用说明,详情请参见:Greenplum数据源使用说明

    • 定时任务支持读取和写入 Greenplum 数据库。定时任务开发请参见:数据开发概述

    • 数据管道任务中支持写入至 Greenplum 数据库。管道任务配置请参见:数据管道概述

    • 数据服务支持 Greenplum 数据库,但需要配置「并行装载设置」项。数据服务请参见:数据服务概述


    附件列表


    主题: 数据源配置与使用
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持