注:数据开发中实时任务当前属于内测阶段,如需试用或者了解详细信息,请联系技术支持(技术支持联系方式:前往「服务」,选择「在线支持」、电话「400-811-8890」)。
1. 概述
1.1 版本
FineDataLink 版本 | 功能变动 |
---|---|
4.1.11.4 | - |
4.1.13.2 | 新增「IBM MQ输入」算子、「MQTT输入」算子 |
4.1.13.4 | 新增「维度表输入」算子、「数据关联」算子、「列转行」算子 |
1.2 应用场景
企业在构建数仓时,需要对接实时数据源,比如 kafka,需要能够从 kafka 中读取数据实时同步到数仓中;
并且实时数仓构建过程中,需要将中间层的数据结果输出到 kafka,用来给下一层数据结果的计算。
这些数据大多都是半结构化 json 格式的数据,需要解析转换为结构化数据后入库;或者将结构化数据序列化成 json 格式后放入至 kafka。
2. 功能说明
实时任务能够实时地把数据从 A 点投递到 B 点。在投递的过程中可能添加数据清洗的工作,例如实时数仓中的数据解析等。最终结果可供后续业务使用,以提高数据利用率和时效性,满足业务需求。
2.1 节点介绍
FineDataLink 实时任务开发模块提供多种类型的节点,多种节点配合使用,满足您不同的数据处理需求。
节点是组成实时任务的基本单位,多个节点通过线条连接后可确定执行流程,进而组成一个完整的实时任务。目前有如下节点:
分类 | 算子 | 说明 |
---|---|---|
数据输入 | kafka输入 | 支持使用 Kafka 输入算子实时读取数据 |
CDC输入 | 支持使用 CDC 输入算子实时读取数据 | |
pulsar输入 | 支持使用 Pulsar 输入算子实时读取数据 | |
MQTT输入 | 支持使用 MQTT输入算子实时读取数据 | |
IBM MQ输入 | 支持使用 IBM MQ 输入算子实时读取数据 | |
维度表输入 | 支持使用维度表输入实时读取数据,便于使用数据关联进行实时跨库关联计算 | |
数据输出 | DB表输出(实时任务) | 支持使用 DB表输出算子实时将数据输出至指定数据库中 |
Kafka输出 | 支持使用 Kafka 输出算子将数据实时同步输出至 Kafka | |
连接 | 数据关联 | 使用数据关联进行实时跨库关联计算 |
转换 | 列转行 | 实现数据表行列结构的改变-列转行,与定时任务相同 |
JSON解析 | 解析 JSON 结构的数据,输出行列格式的数据 | |
XML解析 | 将 XML 格式数据解析为行列格式数据 | |
字段设置 | 可实现数据流字段的选择、重命名、数据类型转换操作 | |
新增计算列 | 在不影响原有字段的情况下,可利用原有字段通过引用或计算获得一个新的字段 | |
数据过滤 | 过滤符合条件的数据记录 | |
字段拆列 | 字段值按照特定规则(分隔符或字符数)拆分,拆分后的结果形成新的多列字段和值 | |
字段拆行 | 字段值按照特定规则(分隔符)拆分,拆分后的结果形成新的一列字段和值 | |
其他 | 备注说明 | 可帮助用户为任务、节点增加备注 |
2.2 操作流程
顺序 | 说明 | 文档 |
---|---|---|
1 | 配置实时任务设计时,数据读取和数据写入的数据源 | [通用]配置数据连接 |
2 | 读取数据源需要开启日志 | 数据库环境准备概述 |
3 | 创建实时任务,并进行实时任务的开发 | 参考各节点功能文档 |
4 | 启动任务 | - |
5 | 对已经设置的定时任务进行任务管理和资源控制 | 单个实时任务管理 |