讀取、建立、寫入分割槽表

  • 文檔創建者:Wendy123456
  • 編輯次數:17
  • 最近更新:Nikozhan 于 2025-04-17
  • 1. 概述

    1.1 版本

    FineDataLink 版本功能變動
    4.1.3

    資料寫入Hive、星環 TRANSWARP INCEPTOR資料庫時,支援建立、寫入分割槽

    4.2.0.2

    支援讀取 Impala 資料庫的 kudu 分割槽

    支援寫入 Impala 資料庫的 kudu 分割槽


    1.2 歷史版本

    FineDataLink 版本
    功能變動
    4.1.9.3
    • 定時任務和資料服務支援選擇 PostgreSQL、Greenplum、Gauss200 的分割槽表作為資料來源或資料去向

    • 定時任務和管道任務自動建表支援指定分割槽鍵(PostgreSQL、Greenplum、Gauss200 )和分佈鍵(Greenplum、Gauss200)

    4.1.11.2

    YMatrix 資料庫:

    • 「定時任務」支援選擇分割槽表作為「資料來源」和「資料去向」

    • 「資料服務」支援選擇分割槽表作為「資料來源」

    • 「定時任務」和「管道任務」「自動建表」支援指定分割槽

    • 「定時任務」和「管道任務」「自動建表」支援指定分佈鍵

    4.1.11.3

    PolarDB PostgreSQL 資料庫

    • 「定時任務」支援選擇分割槽表作為「資料來源」和「資料去向」

    • 「資料服務」支援選擇分割槽表作為「資料來源」

    • 「定時任務」和「管道任務」「自動建表」支援指定分割槽

    4.1.11.4

    MaxCompute「定時任務」「自動建表」支援「分割槽鍵設定」

    當選擇的目標表是分割槽表(包含分割槽鍵),或自動建表時定義了分割槽鍵,寫入方式新增「分割槽寫入」設定項


    1.3 應用場景

    大數據量的資料儲存場景下,為提高查詢效能,許多資料庫都提供了分割槽表的功能,希望 FDL 可以讀取、建立、寫入分割槽表。


    1.4 功能簡介

    部分資料庫支援選擇分割槽表作為「資料來源」和「資料去向」、自動建表支援設定分割槽鍵和分佈鍵。

    2. 讀取分割槽表資料

    支援位置支援資料源
    定時任務PostgreSQL、Greenplum、Gauss200、YMatrix、PolarDB PostgreSQL、 配置Apache Impala資料源
    資料服務PostgreSQL、Greenplum、Gauss200、YMatrix、PolarDB PostgreSQL 

    定時任務和資料服務支援讀取資料源的分割槽表,如下圖所示:


    3. 寫入資料到已存在的分割槽表

    支援位置
    支援資料源
    定時任務

    PostgreSQL(4.1.9.3 及之後版本支援)Greenplum4.1.9.3 及之後版本支援、Gauss2004.1.9.3 及之後版本支援

    YMatrix (4.1.11.2 及之後版本支援)

    PolarDB PostgreSQL(4.1.11.3 及之後版本支援) Impala 資料庫的 kudu 分割槽表(4.2.0.2 及之後版本支援

    管道任務

    定時任務和管道任務支援選擇目標表是分割槽表,如下圖所示:

    4. 自動建表支援分割槽鍵設定

    支援位置支援資料源
    定時任務Hive4.1.3 及之後版本星環 TRANSWARP INCEPTOR4.1.3 及之後版本)、MaxCompute(4.1.11.4以及之後版本)、PostgreSQL(4.1.9.3 及之後版本)、Greenplum(4.1.9.3 及之後版本)、Gauss200(4.1.9.3 及之後版本)YMatrix(4.1.11.2 及之後版本)PolarDB PostgreSQL(4.1.11.3 及之後版本)、 Impala 資料庫的 kudu 分割槽表4.2.0.2 及之後版本支援
    管道任務PostgreSQL(4.1.9.3 及之後版本)、Greenplum(4.1.9.3 及之後版本)、Gauss200(4.1.9.3 及之後版本)YMatrix(4.1.11.2 及之後版本)PolarDB PostgreSQL(4.1.11.3 及之後版本)、 Impala 資料庫的 kudu 分割槽表4.2.0.2 及之後版本支援

    4.1 資料寫入 Hive、星環 TRANSWARP INCEPTOR、MaxCompute

    在定時任務資料同步節點、資料轉換>DB表匯出算子中:

    若選擇「自動建表」可選取目標表裏的某些欄位作為分割槽鍵。如下圖所示:


    點選「分割槽鍵設定」按鈕,如下圖所示:


    詳細請參見:配置Hadoop Hive資料源TRANSWARP INCEPTOR資料源使用說明MaxCompute資料源特性說明

    4.2 資料寫入PostgreSQL、Greenplum、Gauss200、YMatrix、PolarDB PostgreSQL、Impala 資料庫的 kudu 

    分割槽表

    定時任務和管道任務中:

    若資料去向選擇「自動建表」,可將資料寫入分割槽表。如下圖所示:


    詳細說明請參見:PostgreSQL資料源使用說明Greenplum資料源使用說明GaussDB 200資料源使用說明YMatrix資料源使用說明PolarDB PostgreSQL資料源使用說明配置Apache Impala資料源

    配置項
    說明
    分割槽方式

    選擇分割槽方式(不同資料源支援分割槽方式不同):

    • 範圍分割槽(RANGE)

    • 列表分割槽(LIST)

    • 哈希分割槽(HASH)

    分割槽欄位

    選擇映射已有欄位作為分割槽欄位。

    範圍分割槽&哈希分割槽:支援選擇一個或多個欄位作為分割槽欄位。

    列表分割槽:僅支援選擇一個欄位作為分割槽欄位。

    分割槽配置

    選擇分割槽方式後,可以新增多個分割槽,每個分割槽的配置如下:

    範圍分割槽

    • 分割槽名稱

    • 分割槽起始值(包含)(框/數值框/日期框)

    • 分割槽結束值(不包含)(正文框/數值框/日期框)

    列表分割槽

    • 分割槽名稱

    • 取值列表(可以新增多個值,可以自行新增和刪除值)

    哈希分割槽

    • 分割槽名稱

    • 模數(數值框)

    • 餘數(數值框)

    5. 自動建表支援指定分佈鍵

    支援位置支援資料源
    定時任務GaussDB 200、Greenplum、YMatrix
    管道任務

    定時任務和管道任務目標表配置為「自動建表」時,增加相關配置,支援指定哈希分佈鍵。

    注:目前哈希分佈下支援指定分佈鍵,暫不支援隨機分佈和複製分佈。

    分佈鍵可以不配置,不配置分佈鍵時,將走資料庫預設邏輯指定分佈鍵(預設是使用主鍵或者表的第一個列作為分佈鍵),如下圖所示:


    6. 寫入方式支援分割槽寫入

    資料同步節點、資料轉換>DB表匯出算子中:

    資料寫入 Hive、星環 TRANSWARP INCEPTOR 、MaxComput資料庫時,當選擇的目標表是分割槽表(包含分割槽鍵),或自動建表時定義了分割槽鍵,寫入方式新增「分割槽寫入」設定項。如下圖所示:


    分割槽級別、分割槽鍵均為自動獲取,無法自訂;使用者可配置寫入方式、分割槽值。

    • 寫入方式:可選擇靜態分割槽、動態分割槽。

    • 分割槽值:靜態分割槽寫入時,需要為分割槽鍵配置分割槽值。


    附件列表


    主題: 資料開發-定時任務
    已經是第一篇
    已經是最後一篇
    • 有幫助
    • 沒幫助
    • 只是瀏覽
    • 评价文档,奖励 1 ~ 100 随机 F 豆!