配置YMatrix資料源

  • 文檔創建者:Roxy
  • 編輯次數:7
  • 最近更新:Nikozhan 于 2025-06-03
  • 1. 概述

    1.1 版本

     FineDataLink 版本功能變動
    4.1.11.2

    定時任務支援讀取和寫入 YMatrix 資料

    管道任務支援寫入 YMatrix 資料

    資料服務支援讀取 YMatrix 資料

    庫表管理模組支援 YMatrix 資料

    4.1.14.1資料連結支援配置套接字逾時(SocketTimeout 設定項中配置),控制資料庫查詢時間在一個合理範圍內,避免出現無限等待的問題
    4.2.6.4適配 YMatrix 6.X 版本

    2. 使用限制

    資料源功能限制說明請參見:YMatrix数据源使用说明

    需要註冊相關功能點才能使用該資料源,詳情請參見:功能點限制

    3. 配置需知

    3.1 管道任務

    資料管道使用 YMatrix 作為目標表時,都是用的 COPY 裝載模式。

    在使用並行裝載資料源前,需要賦予資料連結對應使用者指定權限。

    1)可以賦予資料連結帳號在對應資料庫建立模式的權限。

    2)在目標資料庫先建立 fdl_temp 模式用來存放臨時表,然後賦予普通使用者這個模式的建表權限即可。

    範例命令如下:

    GRANT USAGE,CREATE ON SCHEMA fdl_temp TO trans_user ;
    ALTER DEFAULT PRIVILEGES IN SCHEMA fdl_temp GRANT SELECT, INSERT, UPDATE, DELETE, REFERENCES, TRIGGER ON TABLES TO trans_user ;
    GRANT USAGE,CREATE ON SCHEMA fdl_temp TO trans_user ;

    3.2 定時任務

    若使用者需要使用 YMatrix 作為寫入端資料源時,支援三種裝載方式:並行裝載、COPY裝載、普通裝載。三種裝載方式差別如下表所示:

    裝載方式
    差別
    普通裝載

    1)向 YMatrix  寫入資料時,不建議選擇該方式

    2)若只從 YMatrix 讀取資料,建議按照本文第五章步驟配置資料連結

    並行裝載

    1)支援寫入 JSON 類型欄位,但仍不支援寫入二進制欄位

    2)並行裝載在大數據量、大規模叢集場景下效能優於 COPY

    3)配置資料連結時需按照本文第四章步驟操作,配置並行裝載設定

    注:若選擇並行裝載方式,需要進行權限指定。

    COPY裝載

    1)支援寫入二進制欄位、JSON 欄位

    2)配置資料連結時,參考本文第五章即可,不用配置並行裝載設定

    若選擇 COPY 裝載方式,需要在目標資料庫先建立 fdl_temp 模式用來存放臨時表,需要使用者有建表、建指定模式的權限(如果已由 DBA 建好模式並賦權,資料庫使用者可不需要建schema的權限)

    3.2.1 並行裝載方式賦權

    使用 YMatrix 作為目標表時,若使用並行裝載模式,則需要進行權限指定。

    1)gpfdist_temp 模式下的建表和已有表的讀取權限。

    注:若不想設定已有表的讀取權限,也可以將該模式下 ext_gpload_* 和 staging_gpload_* 表刪除,需要先將使用並行裝載的任務關停,移除後只需要有 gpfdist_temp 模式下建表權限即可。

    GRANT USAGE,CREATE ON SCHEMA gpfdist_temp TO trans_user ;

    2)建立外部表的權限。

    alter role trans_user with createexttable;

    3)目標表的讀取權限,如果要自動建表的話還需要對應庫的建表權限。

    ALTER DEFAULT PRIVILEGES IN SCHEMA gpfdist_temp GRANT SELECT, INSERT, UPDATE, DELETE, REFERENCES, TRIGGER ON TABLES TO trans_user ;

    3.2.2  COPY 裝載方式賦權

    詳情參見本文 3.1 節。

    3.3 資料服務

    資料服務支援 YMatrix 資料庫,但需要配置「並行裝載設定」項。資料服務請參見:資料服務概述

    4. 配置並行裝載設定

    4.1 前提條件

    詳情請參見:前提條件

    4.2 版本和驅動

    下載驅動包,並將其上傳至 FineDataLink 中,如何上傳詳情可參見:驱动管理

    支援的資料庫版本
    驅動
    5.X、6.X(4.2.6.4 及之後版本適配)PostgreSQL驅動,請下載最新版

    4.3 連結步驟

    建立資料連結步驟請參見:建立並管理資料源

    需注意:

    1)配置資料連結時,驅動需要切換為「自訂」,換為本文 4.2 節的驅動。

    2)模式需要連結資料庫後才可以選擇,所以需要先點選「點選連結資料庫」後,再選擇「模式」。

    注1:在未配置庫和模式時,會讀取到預設庫和模式;使用者需要在配置資料連結時指定庫和模式。

    注2:若有管道任務使用了 YMatrix 資料連結,後續變動資料連結帳號的話,需要為新的資料連結使用者賦予 fdl_temp 模式和內部表的權限。

    3)若需要向 YMatrix 資料庫寫入資料,需要配置「並行裝載設定」項。如下圖所示:

    「並行裝載設定」說明如下表所示:

    設定項
    說明
    伺服器地址-節點1必填;輸入 gpfdist 服務地址,要求配置 FDL 所在伺服器上能被 SEG 存取到的 IP 

    當資料平台所在環境為叢集環境時,展示多個配置項,配置項均為可輸入下拉框,配置名為:伺服器地址-節點X

    複用臨時表是否複用臨時表(複用臨時表在高頻裝載時,可有效降低系統表膨脹速度)

    勾選後,實際運作時,將自動嘗試建立「gpfdist_temp」模式並使用

    臨時檔案條數限制預設值:100000;範圍:10000~100000000;必填

    落盤的臨時檔案條數;配置值可根據使用者環境的磁碟大小、網路速率調整

    臨時檔案大小限制(MB)預設值:1024;範圍:10~102400;必填

    落盤的檔案大小限制;滿足條數與檔案大小任一限制時,停止資料檔案寫入操作,立即進行檔案裝載

    4)4.1.14.1 及之後版本,新增 SocketTimeout 設定項。如下圖所示:

    該設定項應用場景:

    在網路發生抖動時,可能會出現管道&定時任務發出查詢後,無限等待傳回資料的問題,使用者維運時,看不到報錯,但實際任務已不再同步資料。

    配置該設定項後,將控制查詢在一個合理的範圍內,達到套接字逾時時間後,SQL 語句會自動中斷報錯,避免出現無限等待的問題。

    值說明:

    • 配置當前資料連結的套接字逾時,單位為秒,預設值為 3600。

    • 輸入框要求為非負整數,配置為 0 時,視為不設定逾時。

    該設定項控制的功能範圍:

    • 定時任務:對應資料源讀寫、SQL腳本執行、參數指派、全局指派參數。

    • 管道任務:對應資料源讀寫。

    • 資料發佈:對應資料源查詢。

    • 庫表管理:SQL執行。

    5. 不配置並行裝載設定

    使用場景:請仔細查看本文第三章內容。

    建立資料連結步驟:與本文第四章不同的是,無需配置「並行裝載設定」項。

    6. 任務開發

    • 定時任務支援讀取和寫入 YMatrix 資料庫。定時任務開發請參見:定時任務概述

    • 資料管道任務中支援寫入至 YMatrix 資料庫。管道任務配置請參見:資料管道概述

    • 資料服務支援 YMatrix 資料庫。資料服務請參見:資料服務概述



    附件列表


    主題: 配置資料源
    已經是第一篇
    已經是最後一篇
    • 有幫助
    • 沒幫助
    • 只是瀏覽
    • 评价文档,奖励 1 ~ 100 随机 F 豆!