資料管道概述

  • 文档创建者:Roxy
  • 历史版本:72
  • 最近更新:Laurenwy 于 2025-03-18
  • 1. 概述

    1.1 應用場景

    企業在構建數倉和中間庫時,由於業務資料量級較大,如果使用 資料同步 批量定時同步資料很難做到高效能的增量同步,若使用清空目標表再寫入資料的方式時,還會面臨目標表一段時間不可用、抽取耗時長等問題。

    因此希望能在資料庫資料量大或表結構規範的情況下,實現高效能的實時資料同步

    1.2 功能說明

    持對資料源進行單表、多表、整庫、多對一資料的實時全量和增量同步,可以根據資料源適配情況,配置實時同步任務。如下圖所示:

    1.3 實現原理

    FDL 監聽資料管道來源端的資料庫日誌變化,利用 Kafka 作為資料同步中間軟體,暫存來源資料庫的增量部分,進而實現向目標端實時寫入資料的效果。

    1.4 斷點續傳功能說明

    若管道任務失敗,支援斷點續傳:若全量同步未完成,會從頭全量同步;若全量同步已完成,會從斷點開始。

    斷點續傳範例:

    管道任務在 03-21 日讀取了資料,03-23 日停掉,03-27 日啟動,03-23 到 03-27 日的資料會同步過去。

    1.5 資料管道與資料開發的差別

    詳情請參見:資料管道與資料開發差別

    1.6 資料管道併發數說明

    請參見:資料管道維運指導

    2. 使用限制

    • 管道任務僅支援在 獨立部署 環境下使用。

    • 管道任務不支援同步檢視表和索引。

    3. 功能概述

    功能
    描述
    資料源實時同步支援多種資料源,可以將多種來源端及目標端資料源搭配組成同步鏈路進行資料實時同步。資料管道支援的資料源請參見:資料管道支援的資料源類型
    同步場景

    同步物件說明:

    同步物件
    說明
    單表/多表支援單表、多表實時同步
    整庫

    支援一次性配置一個實體下多個庫的多個

    單個任務限制最多選取 5000 張表,達到限制時不允許新增選擇

    多對一4.1.8.1 及之後版本,支援多張結構相同的源表資料同步到一張目標表中,取所有源表欄位的交集作為分組表的欄位

    同步類型說明:

    詳情請參見:同步類型

    • 存量+增量同步:先對所有存量資料完成同步,隨後持續同步新增的變化資料(增/刪/改)

    • 增量:任務僅包含增量階段,任務初次運作時,將按照配置的起始時間開始進行增量同步

    任務配置

    1)任務配置前,需要先準備資料庫環境、管道任務環境。詳情請參見:資料管道使用說明 文檔的第二章、第三章內

    2)在 FDL 中配置管道任務時,步驟簡單,無需編寫程式碼;功能豐富。詳細說明如下:

    步驟
    亮點
    選擇資料來源
    • 選擇來源表時,支援搜尋表名,點選表名即能選中源表

    • 支援快速選表功能,可批量選擇多表

    不建議使用者使用資料管道同步 longtext 類型的欄位,否則 Kafka 會有問題,運作效率也會有問題

    不建議來源表欄位名稱中包含空格,否則任務啟動將會報錯

    選擇資料去向
    • 可設定目標表執行物理刪除(實際刪除資料)還是邏輯刪除(不實際刪除資料,只是標記刪除資料)

    • 同步時可標記時間戳,記錄資料在資料庫中實際新增和更新的時間資料庫所在時間

    • 使用者可根據實際需要選擇是否開啟 同步源表結構變化 功能

    • 支援設定無主鍵同步

    表欄位映射
    • 目標表可選擇已存在表、或自動建表

    • 支援批量修改表名、表建立方式

    • 支援篩選,篩選條件為:目標表配置是否有異常、目標表是否有主鍵、表建立方式、是否已映射的目標表欄位、是否有異常的目標表欄位

    特別說明:

    管道控制
    • 支援設定髒資料上限,達到上限則自動終止管道任務

    • 支援設定失敗重試,當管道任務由於當時的網路波動或者其他原因,運作中斷,設定失敗重試後可自動重新運作任務

    • 當任務異常時可進行通知,通知渠道支援:簡訊、郵件、平台訊息、釘釘群機器人、飛書群機器人、企業微信群機器人

    • 可設定管道任務的日誌等級,滿足使用者按需查看日誌、除錯和排錯的需求;可以在更細粒度的日誌等級裏,列印詳細的日誌,供使用者查看

    任務維運

    詳情請參見:管道任務維運

    • 支援修改、複製、重新命名、行動、匯入匯出、刪除管道任務

    • 支援查看管道任務運作狀況、查看讀寫統計、查看日誌、處理髒資料

    • 支援批量啟動/暫停管道任務

    • 提供髒資料清單,待資料同步完成後,針對髒資料批量校準,校準後資料單獨同步

    • 4.2.1.1 及之後版本,管道任務異常劃分為表級和任務級:分別支援自動重試;表級別異常不影響任務中其他表正常運作

    資料中心

    4.1.6.1 及之後版本,可在 FDL 的 庫表管理 功能中,查看、修改表資料(快速檢查實時同步效果)

    4.1.11.1 及之後版本,可查看管道任務中所使用資料表的血緣關係,詳情請參見:血緣分析

    其他

    4.1.9.3 及之後的版本支援使用「回收站」進刪除任務的還原、管理,詳情請參見:回收站

    4.1.6.3 及之後版本,管道任務禁止被多人同時編輯,詳情請參見:任務禁止被多人同時編輯

    4. 使用說明

    1)資料管道功能使用說明請參見:資料管道使用說明

    2)使用者想了解某個管道任務是誰編輯的、編輯時間、斷點相關資訊等,FDL 工程內的管道任務維運無法滿足需求,可參見解決方案:BI儀表板展示管道任務編輯資訊

    3)使用者的管道任務實現上百張表的實時同步,且存在部分來源表和目標表的表名不同、多張來源表同步到一張目標表情況,導致使用者在管理來源表和目標表的對應關係時(例如重構任務)較為困難。可參見解決方案:匯出管道任務中來源表及對應的目標表資訊

    附件列表


    主题: 資料管道
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!