1. 概述
1.1 應用場景
企業在構建數倉和中間庫時,由於業務資料量級較大,如果使用 資料同步 批量定時同步資料很難做到高效能的增量同步,若使用清空目標表再寫入資料的方式時,還會面臨目標表一段時間不可用、抽取耗時長等問題。
因此希望能在資料庫資料量大或表結構規範的情況下,實現高效能的實時資料同步。
1.2 功能說明
支持對資料源進行單表、多表、整庫、多對一資料的實時全量和增量同步,可以根據資料源適配情況,配置實時同步任務。如下圖所示:
1.3 實現原理
FDL 監聽資料管道來源端的資料庫日誌變化,利用 Kafka 作為資料同步中間軟體,暫存來源資料庫的增量部分,進而實現向目標端實時寫入資料的效果。
1.4 斷點續傳功能說明
若管道任務失敗,支援斷點續傳:若全量同步未完成,會從頭全量同步;若全量同步已完成,會從斷點開始。
斷點續傳範例:
管道任務在 03-21 日讀取了資料,03-23 日停掉,03-27 日啟動,03-23 到 03-27 日的資料會同步過去。
1.5 資料管道與資料開發的差別
詳情請參見:資料管道與資料開發差別
1.6 資料管道併發數說明
請參見:資料管道維運指導
2. 使用限制
管道任務僅支援在 獨立部署 環境下使用。
管道任務不支援同步檢視表和索引。
3. 功能概述
功能 | 描述 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
資料源 | 實時同步支援多種資料源,可以將多種來源端及目標端資料源搭配組成同步鏈路進行資料實時同步。資料管道支援的資料源請參見:資料管道支援的資料源類型 | ||||||||||
同步場景 | 同步物件說明:
同步類型說明: 詳情請參見:同步類型
| ||||||||||
任務配置 | 1)任務配置前,需要先準備資料庫環境、管道任務環境。詳情請參見:資料管道使用說明 文檔的第二章、第三章內容 2)在 FDL 中配置管道任務時,步驟簡單,無需編寫程式碼;功能豐富。詳細說明如下:
| ||||||||||
任務維運 | 詳情請參見:管道任務維運
| ||||||||||
資料中心 | 4.1.6.1 及之後版本,可在 FDL 的 庫表管理 功能中,查看、修改表資料(快速檢查實時同步效果) 4.1.11.1 及之後版本,可查看管道任務中所使用資料表的血緣關係,詳情請參見:血緣分析 | ||||||||||
其他 | 4.1.9.3 及之後的版本支援使用「回收站」進刪除任務的還原、管理,詳情請參見:回收站 4.1.6.3 及之後版本,管道任務禁止被多人同時編輯,詳情請參見:任務禁止被多人同時編輯 |
4. 使用說明
1)資料管道功能使用說明請參見:資料管道使用說明
2)使用者想了解某個管道任務是誰編輯的、編輯時間、斷點相關資訊等,FDL 工程內的管道任務維運無法滿足需求,可參見解決方案:BI儀表板展示管道任務編輯資訊
3)使用者的管道任務實現上百張表的實時同步,且存在部分來源表和目標表的表名不同、多張來源表同步到一張目標表等情況,導致使用者在管理來源表和目標表的對應關係時(例如重構任務)較為困難。可參見解決方案:匯出管道任務中來源表及對應的目標表資訊