历史版本51 :数据开发概述 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

FineDataLink 版本功能变动
1.9-
4.0.14鼠标悬浮至节点列表,会出现节点的用法解释,用户可快速查看当前节点用法
4.0.28新增「Python脚本」节点,支持直接调用 Python 脚本
4.0.29新增「Bat 脚本」节点,支持调用远程 Windows 环境中的 Bat 脚本文件

1.2 功能简介

「数据开发」模块支持在可视化界面使用各个节点和算子进行数据的抽取、转换和装载,并可以通过定时调度功能自动运行定时任务,帮助您轻松构建离线数仓,保证数据生产的高效稳定。

注:数据开发部分相关概念说明详情参见:数据开发概念

62.png

2. 功能概述编辑

2.1 支持的数据源

数据开发支持多种数据源,可以将多种来源数据进行数据处理和集成。

详情请参见:定时任务支持的数据源

1687249965830033.png

2.2 任务管理

数据开发中通过「定时任务」存放设计好的业务流程。

通过「文件夹」对定时任务进行管理。

1687252264804200.png

2.3 任务开发

供「数据同步」和「数据转换」节点,实现数据高效灵活的 ETL 和 ELT。

1687250289392068.png

价值场景示例如下说明:

1)实现跨数据源批量同步数据

1687251965292330.png

2)提供多种数据转换算子,灵活处理数据

支持对异构数据进行数据关联、字段设置、行列转换、JSON解析、数据比对等功能,以满足多种场景下的数据处理需求。

1687253112789083.png

3)支持JSON解析,一键解析半结构化数据

1687252579902443.png

4)支持Spark SQL,覆盖更多数据转换场景

通过使用 Spark SQL 算子,用户可以获取上游输出的数据,使用 Spark SQL 对其进行查询和处理,并输出给下游。

在可视化算子不够丰富时,可使用「Spark Sql」算子应对各类数据处理场景。

72.png

5)循环容器,支持对数据遍历循环

1687253417740387.png

6)对接企微,实现数据找人

面对迅速变化的业务数据,为保证关键指标出现异常时快速做出业务响应,可使用消息通知对接企微,完成数据监控和预警。

74.png

7)支持 SQL 脚本,对数据库进行增删改

75.png

8)支持调用 shell 脚本,对接外部的独立数据处理过程

76.png

2.4 任务调度

注:设置调度前,可通过手动执行任务,根据任务运行日志进行任务调试。运行日志详情参见:运行日志介绍

提供了定时调度功能,可以定期自动运行定时任务,以保证数据能够及时更新。

详细介绍请参见:定时任务调度配置

1687259552124333.png

2.5 任务运维

任务支持灵活调度、运行状态实时监控,便捷的操作将会释放运维人员巨大的工作量。

详细介绍请参见:定时任务运维

80.png

3. 节点介绍编辑

FineDataLink 数据开发模块提供多种类型的节点,多种节点配合使用,满足您不同的数据处理需求。

节点是组成定时任务的基本单位,多个节点通过线条连接后可确定执行流程,进而组成一个完整的定时任务。FineDataLink 目前有如下节点:

分类说明节点名称应用场景
通用
用于数据同步数据同步将数据从一个数据库抽取到另一个数据库
用于复杂数据清洗计算数据转换可执行数据关联、同步删除数据等操作

数据同步与数据转换的区别请参见数据同步与数据转换的区别
脚本通过控制脚本语法实现数据处理SQL脚本写 SQL 语句对数据库中的数据进行处理
Shell脚本通过执行 shell 脚本,对接外部的独立数据处理过程,例如调用Kettle任务、调用Python计算任务等
Python脚本支持直接调用 Python 脚本
Bat 脚本支持调用远程 Windows 环境中的 Bat 脚本文件
流程进行复杂逻辑处理的流程节点参数赋值用参数承载上游节点运行的结果,然后在下游节点中使用该结果
条件分支基于一个来自于上游或者系统的条件,判断是否继续运行下游节点或者运行下游节点里面的哪一个
虚拟节点希望多个节点可以并行运行后再转到下游节点,可借助该节点实现
调用任务可以在当前任务中调用其他任务,这样可以直接设置任务间执行的依赖关系,实现跨任务编排
消息通知可将任务调度结果以企业微信群机器人/邮件/钉钉/短信的形式通知给指定用户
循环容器
可满足循环取数的场景
其他任务备注说明ETL任务和节点添加备注需要为节点或任务添加备注,例如在任务中备注该任务的具体使用场景。

鼠标悬浮至节点列表,会出现节点的用法解释,用户可快速查看当前节点任务用法。如下图所示:

4.png

4. 操作流程编辑

顺序说明文档
1配置定时任务设计时,数据读取和数据写入的数据源[通用]配置数据连接
2创建定时任务,并进行定时任务的开发参考各节点功能文档
3设置定时任务定时自动执行定时任务调度配置
4通过手动执行任务,根据任务运行日志进行任务调试运行日志介绍
5对已经设置的定时任务进行任务管理和资源控制定时任务运维

5. 注意事项编辑

5.1 SQL 语句注释说明

4.0.17 版本之前,FineDataLink 忽略对 SQL 语句注释的处理;4.0.17 及之后版本,SQL 语句的注释交给数据库执行。

用户需注意 SQL 语句注释的书写规范:单行注释之后要有一个空格;Hive 数据源不支持多行注释。