Greenplum数据源介绍

  • Last update:  2022-06-28
  • 1. 概述

    1.1 版本

    FineBI 版本功能变动
    6.0

    -

    1.2 应用场景

    用户在 ETL 任务中,需要将业务库数据抽取至 Greenplum 数据库进行分析,在相对小的时间窗口内完成大数据量的数据装载。

    1.3 功能简介

    数据源类型和数据输出适配 Greenplum、Greenplum(并行装载)数据库,Greenplum 作为输出库时,支持并行装载以提升数据装载速度。

    2. 功能介绍

    2.1 使用并行装载前的准备工作

    1)Greenplum(并行装载)支持的版本为:5.X 和 6.X 。

    2)使用并行装载前的准备工作:

    Linux系统:gpfdist_linux.tar.gz

    将该压缩包上传到 Linux 服务器上:

    • 解压到:%FR_HOME%\webapps\webroot\WEB-INF

    • 将 bin 文件夹中的 gpfdist 文件与 lib 文件夹放在同一层级上,删除 bin 文件夹。

    • 将 gpfdist_linux 文件夹名称修改为 gpfdist 。

    最终效果如下图所示:

    Windows 系统:可联系技术支持获取包。技术支持联系方式:QQ「800049425」、电话「400-811-8890」

    3)Windows 下 gpfdist 需要基于源码再自行编译 gpfdist.exe 才能使用(Linux 已编译)。在 Win 版本中,暂不随安装包集成 gpfdist 相关组件,Linux 版本随安装包集成。

    4)最大单行数据大小支持 1M(Win最大支持值),不允许修改。

    2.2 Greenplum(并行装载)数据连接类型

    数据连接 处可以新增 Greenplum(并行装载)数据连接类型。

    其中 Greenplum 数据连接请参见:[平台]Pivotal Greenplum Database数据连接Greenplum(并行装载)与 Greenplum 数据连接的区别如下图所示:

    配置项说明
    服务器地址-节点1输入 gpfdist 服务地址,要求配置 FDL 所在服务器上能被 SEG 访问到的 IP 

    当数据平台所在环境为集群环境时,展示多个配置项,配置项均为可输入下拉框,配置名为:服务器地址-节点X

    复用临时表是否复用临时表(复用临时表在高频装载时,可有效降低系统表膨胀速度)

    勾选后,实际运行时,将自动尝试新建「gpfdist_temp」模式并使用

    临时文件条数限制

    默认值:100000;范围:10000~100000000;必填

    落盘的临时文件条数;配置值可根据用户环境的磁盘大小、网络速率调整

    临时文件大小限制(MB)默认值:1024;范围:10~102400;必填

    落盘的文件大小限制;满足条数与文件大小任一限制时,停止数据文件写入操作,立即进行文件装载

    2.3 数据输入适配

    数据输入适配 Greenplum、Greenplum(并行装载)数据库。

    示例:「数据同步>数据来源>数据源类型」中可选择 Greenplum、Greenplum(并行装载)。如下图所示:

    2.4 数据输出适配

    数据输出适配 Greenplum、Greenplum(并行装载)数据库。

    1)示例:

    「数据转换>DB表输出>数据去向>数据源类型」中可选择 Greenplum、Greenplum(并行装载)。如下图所示:

    2)选择 Greenplum(并行装载)数据库说明

    其中,选择 Greenplum(并行装载)时,界面如下图所示:

    说明如下所示:

    1)若不勾选「启用并行装载」,将以 jdbc 做串行装载。

    2)若勾选「启用并行装载」,将以 gpfdist 协议做并行装载,更新策略覆盖为:比对字段遇相同值,覆盖目标表的数据

    3)并行装载方式分为插入、合并。

    插入:直接向目标表 INSERT ;合并:比对字段遇相同值时,做更新,否则做插入。

    • 写入方式为「清空目标表再写入数据」时,装载方式固定为「插入」。

    • 写入方式为「直接将数据写入目标表」时,如果选择了比对字段,装载策略为「合并」;未选择比对字段时,装载策略为「插入」。

    4)gpfdist 默认使用 15500 端口。

    5)二进制类型字段不支持在勾选「启用并行装载」的时候同步。


    Attachment List


    Theme: 数据开发
    前の記事
    次の記事
    • いいね
    • 良くない
    • 閲覧しただけ

    フィードバック

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    反馈已提交

    网络繁忙