历史版本3 :实时任务概述 返回文档
编辑时间:
内容长度:图片数:目录数:
修改原因:
1. 概述编辑
1.1 版本
FineDataLink 版本 | 功能变动 |
---|---|
4.1.11.4 | - |
1.2 应用场景
企业在构建数仓时,需要对接实时数据源,比如 kafka,需要能够从 kafka 中读取数据实时同步到数仓中;
并且实时数仓构建过程中,需要将中间层的数据结果输出到 kafka,用来给下一层数据结果的计算。
这些数据大多都是半结构化 json 格式的数据,需要解析转换为结构化数据后入库;或者将结构化数据序列化成 json 格式后放入至 kafka。
2. 功能说明编辑
实时任务能够实时地把数据从 A 点投递到 B 点。在投递的过程中可能添加数据清洗和集成的工作,例如实时数仓中的数据解析等。最终结果可供后续业务使用,以提高数据利用率和时效性,满足业务需求。
2.1 节点介绍
FineDataLink 实时任务开发模块提供多种类型的节点,多种节点配合使用,满足您不同的数据处理需求。
节点是组成实时任务的基本单位,多个节点通过线条连接后可确定执行流程,进而组成一个完整的实时任务。目前有如下节点:
分类 | 算子 | 说明 |
---|---|---|
数据输入 | kafka输入 | 读取关系型数据库表中的数据 具体请参见:FineDataLink支持的数据源 4.1.3 及之后版本,数据源类型选择「DB表输入」类型时:
|
CDC输入 | 从 API 中读取数据,支持 RESTful API 和 WebService API | |
pulsar输入 | 从 FineDataLink 服务器本地和 FTP/SFTP 服务器上读取 Excel、CSV、Txt 文件数据 | |
数据输出 | DB表输出 | 将数据输出到关系型数据库表 |
Kafka输出 | 将取到的数据输出为参数,供下游节点使用 | |
转换 | JSON解析 | 解析 JSON 结构的数据,输出行列格式的数据 |
XML解析 | 将 XML 格式数据解析为行列格式数据 | |
字段设置 | 可实现数据流字段的选择、重命名、数据类型转换操作 | |
新增计算列 | 在不影响原有字段的情况下,可利用原有字段通过引用或计算获得一个新的字段 | |
数据过滤 | 过滤符合条件的数据记录 | |
字段拆列 | 字段值按照特定规则(分隔符或字符数)拆分,拆分后的结果形成新的多列字段和值 | |
字段拆行 | 字段值按照特定规则(分隔符)拆分,拆分后的结果形成新的一列字段和值 | |
其他 | 备注说明 | 可帮助用户为任务、节点增加备注 |
2.2 操作流程
顺序 | 说明 | 文档 |
---|---|---|
1 | 配置实时任务设计时,数据读取和数据写入的数据源 | [通用]配置数据连接 |
2 | 读取数据源需要开启日志 | 数据库环境准备概述 |
3 | 创建实时任务,并进行实时任务的开发 | 参考各节点功能文档 |
4 | 启动任务 | |
5 | 对已经设置的定时任务进行任务管理和资源控制 |