反饋已提交
網絡繁忙
在本文中,我們會將一個資料庫中的資料遷移到另外一個資料庫中,並對遷移過去的資料進行聚合處理。
希望使用者可以透過這個簡單的示例,入門 ETL作業 功能。
登錄數據決策系統,點選【數據平台】→【ETL作業】→【資料開發】即可進入對應功能介面。
當前【ETL作業】中有四個節點,分別為:【離線同步】、【SQL指令碼】、【虛拟節點】、【參數賦值】。
本文中主要涉及其中【SQL指令碼】和【離線同步】節點使用,其他節點內容可參照對應文檔進行熟悉使用。
進入數據平台模組,在【ETL作業】→【資料開發】中,使用者可以建立【ETL任務】和【資料夾】。如下圖所示。
其中【資料夾】用於存放任務,方便對任務進行分類管理。
建立一個【ETL任務】並命名為【示例】。使用者可以對現有的任務或資料夾進行 重新命名、移動、刪除 等操作。如下圖所示:
點擊【示例】進入任務設計頁面,如下圖所示。
此任務中,我們即將實現將一個資料庫中的資料遷移到另外一個資料庫中,並對遷移過去的資料進行彙總處理。
拖入【SQL指令碼】節點。
雙擊進入【SQL指令碼】的編輯介面。輸入SQL語句創建兩個新表:adb_detail_tabled、adb_summary_table,分別用於存放從來源資料庫中抽取過來的資料和進行按天聚合處理後的資料。
右擊該節點重新命名,重命名為【建立目標表】,具體操作如下圖所示。
拖入一個【離線同步】節點。
雙擊進入【離線同步】的編輯介面,進行【資料來源】,【資料去向】的配置。
配置完成後點選【下一步】,系統會自動將取出來的資料與 adb_detail_tabled 中的欄位做映射。若欄位與欄位之間的映射不正確,使用者可以進行手動調整,調整完後點選【確定】按鈕。
以上便可將抽取過來的資料存放到建立的adb_detail_tabled 表中,我們將該節點重新命名為【跨庫遷移資料】,具體操作如下圖所示。
註:離線同步具體配置詳細請參見:離線同步。
拖入一個新的【SQL指令碼】節點。
雙擊進入【SQL指令碼】的編輯介面,輸入彙總的SQL語句。
右擊該節點重新命名,重命名為【按天分組彙總】具體操作如下圖所示。
我們執行這三個節點的步驟是【建立目標表】→【跨庫遷移資料】→【按天分組彙總】,按照這個順序,我們用連線將這些節點串起來。
設定完所有節點後,在右上角點選【儲存】,具體操作如下圖所示。
使用者有三種執行方式:【執行節點】、【執行節點及下遊】、【儲存並執行】。其中【執行節點】和【執行節點及下遊】需要右擊該節點,具體如下圖所示。
執行節點:只執行使用者選擇的某個節點。
執行節點及下遊:執行使用者選擇的某個節點及其下遊的所有節點。
儲存並執行:執行整個任務(即執行所有節點)。
本文中示例直接點選【儲存並執行】即可。
使用者可以透過檢視執行日誌的結果,來對自己設計的任務進行除錯。若執行成功,說明任務可用;若執行失敗,使用者可根據下方報錯對任務進行修改。如下圖所示。
連結對應數據庫表adb_summary_table,可以看到按天分組彙總數據。如下圖所示。
ETL作業中的任務儲存在路徑:webapps\webroot\WEB-INF\dpworks下,如下圖所示。
若使用者想遷移任務,可以將 dpworks 下對應的任務資料夾從 A 工程複制到 B 工程的對應路徑下,遷移後需要重新為其進行 排程配置。
使用者不能透過刪除任務資料夾的方式來刪除任務,直接刪除任務資料夾會導緻 ETL作業前端報錯。
fine_dp_conf_entity 表:記錄任務配置資訊。
fine_dp_execute_record 表:記錄任務執行資訊。
其他數據平臺工具相關的表:fine_dp_conf_entity_value、fine_dp_data_slice、fine_dp_dateset。
註:不要操作以上表的資料或者誤刪表,否則會影響 ETL 作業工具的使用。
在【ETL作業】中使用到的所有資料連結不要隨意改名字,更改名字會導緻【ETL作業】中選擇的資料連結和資料表丟失。
文 檔回 饋
滑鼠選中內容,快速回饋問題
滑鼠選中存在疑惑的內容,即可快速回饋問題,我們將會跟進處理。
不再提示
10s後關閉