1. 概述
本文講述如何使用資料管道功能。
2. 準備工作
準備工作 | 說明 |
---|---|
步驟一(必做):準備 FDL 獨立部署工程 | 管道任務僅支援在 獨立部署 環境下使用 參考 FineDataLink部署方案选择 文檔,部署 FDL 工程 |
步驟二(必做):註冊功能點 | 若需要使用資料管道功能,則需要參考文檔註冊相關功能點:注册简介 |
步驟三(必做):資料源準備 | 管道任務支援的資料源請參見:資料管道支援的資料源類型 需要擁有資料連結的使用權限,參考 建立並管理資料源 文檔建立資料連結,或者聯絡管理者分配資料連結的使用權限:数据连接权限概述 |
3. 配置流程
注1:配置管道任務完整範例請參見:管道任務範例
注2:管道任務的來源端若為 MySQL、SQLServer、Oracle,若同一個庫中的多張表都需要實時同步,建議在一個管道任務中實現;若同一個庫中的多張表,每張表單獨配置一個管道任務,資料庫將承受較大壓力。
步驟 |
---|
步驟一:準備資料庫環境(必做) 基於需要設定資料管道任務的資料源,授予資料源配置的帳號在資料庫進行相應操作的權限。詳情請參見:資料庫環境準備概述 |
步驟二:管道任務環境準備(必做) 部署 Kafka 開源流處理平台作為中間軟體。詳情請參見:部署Kafka:ZooKeeper模式、配置傳輸佇欄(只有 FDL 工程的超管才能配置傳輸佇列) 注:Kafka 建議部署在 Linux 系統中(Kafka 也支援安裝在 Windows 中,但效能會受到限制,僅做示範使用,不建議用於生產環境) |
步驟三:分配管道任務權限(選做) 若需要使用資料管道的使用者不是超級管理者,則需要為對應使用者分配資料管道功能的使用權限 若需要在某個資料夾下建立管道任務,則需要分配該資料夾的管理權限 詳情請參見:管道任務管理權限 |
步驟四:配置資料管道任務(必做) 按照順序參考以下文檔: |
4. 不同場景下同步邏輯說明
建立管道任務、複製管道任務場景:
1)配置管道任務-選擇資料來源 步驟中:
若選擇「存量+增量同步」類型:先對所有存量資料同步,然後持續同步新增變化。
任務初次運作時,將完整運作全量同步+增量同步;任務中斷或暫停後,再次運作時,如果所有表的全量同步都已完成,則將從增量的斷點開始,直接運作增量同步。
若選擇僅增量同步類型,具體說明參見文檔:配置管道任務-選擇資料來源
2)目標表若選擇已存在表,目標表結構(表名和欄位名)和來源表一致:首次資料同步會清空目標資料表資料,然後全量同步資料,此後增量同步。
暫停管道任務,進入編輯介面:
1)新增來源表:新增的表將按照所選的同步類型進行同步。
同步類型為存量+增量:新增的表需要進行存量同步,那麼增量同步將在後台懸置,等新增的表存量跑完,再繼續開始增量
同步類型為僅增量:
修改了增量起點:所有表(包含新增的表)按照指定增量起點進行同步
沒有修改增量起點:新增表,按照任務內建斷點進行同步
2)刪除來源表:刪除同步物件並儲存時,將同時刪除此物件相關的所有聯動資訊,任務啟動時,將不再同步對應表。
處理髒資料 (具體詳情點選左側連結):
1)重試髒資料:對單表和指定多表,重試功能會將快取的髒資料進行再次提交,並更新資料量統計。
2)重新同步:會將目標端表清空並重新執行全量同步、在全量同步結束後滾入增量同步。
開啟同步源表結構按鈕、選擇邏輯刪除:
「失敗重試」邏輯說明:
若全量同步未完成,會從頭全量同步;若全量同步已完成,會從斷點開始;即全量階段沒有斷點,只有增量階段有斷點同步。
管道任務只要重新運作了,都是按第一次開始重新計算。
5. 管道任務維運
注1:若工程中包含管道任務,關閉工程不建議使用 kill -9 pid 語句,會導致管道任務異常,建議使用 kill pid 語句。詳情請參見:关闭或重启FineDataLink工程
注2:4.1.6.3 及之後版本,管道任務禁止被多人同時編輯。詳情請參見:任务禁止被多人同时编辑
操作 | 參考文檔 |
---|---|
重新命名、行動、複製、匯出、刪除管道任務 | |
修改管道任務:暫停管道任務後,可修改管道任務 注:修改範圍有限,若某些設定項無法修改,可複製管道任務 | 任務運作狀況 |
查看任務運作狀況、查看日誌、處理髒資料 | 單個管道任務維運概述 |
想對所有管道任務進行統一的管理,比如停止任務、刪除任務、檢查任務運作狀態、同步效能、對異常情況進行監視和處理、批量暫停任務等 | 管道任务运维 |
| 数据管道运维指导 |
記錄資料管道相關資訊的 FineDB 資料庫表 | 資料管道 |
管道任務的查看、編輯、授權權限 | |
資料管道問題合集 |