1. 概述
2. 节点列表
节点是组成 ETL 任务的基本单位,多个节点通过线条连接后可确定执行流程,进而组成一个完整的 ETL 任务。
数据开发目前有 8 种节点,它们的基本介绍如下表所示:
节点名称 | 应用场景 |
---|---|
数据同步 | 将数据从一个数据库抽取到另一个数据库 |
数据转换 | 可执行数据关联、同步删除数据等操作 |
SQL脚本 | 写 SQL 语句对数据库中的数据进行处理 |
参数赋值 | 用参数承载上游节点运行的结果,然后在下游节点中使用该结果 |
条件分支 | 基于一个来自于上游或者系统的条件,判断是否继续运行下游节点或者运行下游节点里面的哪一个 |
虚拟节点 | 希望多个节点可以并行运行后再转到下游节点,可借助该节点实现 |
调用任务 | 可以在当前任务中调用其他任务,这样可以直接设置任务间执行的依赖关系,实现跨任务编排 |
消息通知 | 可将任务调度结果以企业微信群机器人/邮件/钉钉/短信的形式通知给指定用户 |
循环容器 | 可满足循环取数的场景 |
其中「数据同步」和「数据转换」的区别和联系如下表所示:
节点名称 | 定义 | 应用场景 | 优势 | 劣势 |
---|---|---|---|---|
数据同步 | 从数据来源端抽取数据直接加载入数据目标端,利用数据库完成数据处理 | 1)适用于较大数据量的同步场景,当单表数据量超过 1kw 时,推荐使用数据同步 2)适用于没有复杂处理逻辑的数据同步场景 | 1)抽数性能佳 2)节点个数少,抽数任务更加轻量化 | 无法进行复杂场景的数据处理 |
数据转换 | 从数据来源端抽取数据,进行数据处理,再加载入数据目标端,利用 FDL 完成数据处理 | 当数据需要利用 FDL 完成复杂场景处理时,推荐使用数据转换 | 数据处理场景覆盖范围广 | 1)针对数据量较大场景时,抽数速度低于数据同步 2)消耗硬件资源配置,内存消耗高 |
3. 任务设计区域
3.1 节点拖拽和连线
1)节点可以直接从节点列表拖拽到任务设计区域使用。
2)按住鼠标从上游节点右侧输出点将光标挪到下游节点的左侧输入点,即可完成两个节点之间的连线。
3.2 节点多选和复制
1)如果要对多个节点批量操作时,需要多选节点,方法有两种。
空白区域按住鼠标拖拽光标进行框选
按住键盘 Ctrl 键,一个一个点击需要选中的节点。
2)支持复制粘贴单个或多个节点,操作方法也是两种。
选中节点后右键节点区域,弹出的选项选择复制,再去空白区域右键进行粘贴即可。
选中节点后,直接使用快捷键 Ctrl+C 和 Ctrl+V 进行复制粘贴。
3.3 移动设计界面画布
在设计界面按住键盘空格键,然后拖动鼠标光标,可以移动任务整体画布,操作如下图所示:
4. 任务工具栏
4.1 运行和终止任务
设计好的 ETL 任务可以点击工具栏的「保存并运行」来运行,如果需要中途强制终止任务,可以点击「终止」,操作如下图所示:
4.2 参数设置
工具栏中的「参数设置」可以让用户自定义一些参数,详细介绍参见文档:自定义参数
4.3 调度配置
工具栏中的「调度配置」可以让任务定期自动运行,保证数据实时更新,详细介绍参见文档:调度配置
5. 任务日志
5.1 日志
任务日志展示区域的「日志」页可以查看当前任务的执行情况。
在「日志」这个 Tab 页下,具体显示内容请参见:运行日志介绍
5.2 统计
任务日志展示区域的「统计」页可以查看「数据同步」节点和「数据转换」节点的读写信息。
注:表格中「总流量」字段代表读取和写入的数据量,所占用的流量。
6. 功能变动
6.1 集群适配
1)认定主节点
对于纯 FineReprot 集群工程,默认以"文件同步基准节点"为主节点。
对于 FineBI+FineReprot 集群工程,以 Spider 的主节点作为主节点。
2)所以请求都转发到主节点
前端请求:查看任务文件和配置、文件增删改、配置增删改、手动触发 ETL 任务运行、查看日志、下载日志,会被拦截并转发至主节点处理。
3)主节点宕机处理策略
如果系统中认定的主节点从集群中消失,则按照节点启动顺序,将备用节点上升为任务运行节点。
若主节点恢复,则待当前队列中的任务运行完毕后,将新的任务继续交由主节点运行。
7. 注意事项
7.1 迁移和删除任务
ETL 作业中的任务保存在路径:FineReport_10.0\webapps\webroot\WEB-INF\dpworks下,如下图所示:
若用户想迁移任务,可将 dpworks 下对应任务文件夹从 A 工程复制到 B 工程对应路径下,迁移后需要重新进行调度配置
用户不能通过删除任务文件夹的方式来删除任务,直接删除任务文件夹会导致 ETL作业 前端报错。
7.2 FineDB配置相关
在 FineDB 中, fine_dp_conf_entity 表记录任务配置信息,fine_dp_execute_record 表记录任务执行信息,其他数据平台工具相关的表包括:fine_dp_conf_entity_value、fine_dp_data_slice、fine_dp_dateset,注意不要操作以上表的数据或者误删表,否则会影响 ETL 作业工具的使用。