历史版本2 :Kafka输入 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

FineDataLink 版本功能变动
4.1.11.4-

1.2 应用场景

用户需要实时读取 kafka 中的数据,将数据解析后,写入指定数据库中,并使用数据进行报表和实时大屏制作和展示。

1.3 功能简介

FineDataLink 「实时任务」支持使用 Kafka 输入算子进行实时读取数据。

2. 功能说明编辑

配置项说明
数据连接

配置Kafka数据源之后即可选择对应数据连接

Topic

选择读取 kafka 中的topic

支持手动填入topic

同步方式
  • 全量+增量同步:初次启动任务时,同步kafka中所有数据,并持续同步 kafka 中的增量数据,再次启动任务时,从上次执行结束的断点继续同步;如果断点状态丢失,则按照初次启动逻辑同步数据。

  • 仅增量同步:可以选择「任务启动时间」和「自定义时间」

1)选择「指定时间」,通过日期时间控件选择时间点。

2)任务启动时间:初次启动任务时,同步启动时间开始的增量数据,再次启动任务时,从上次执行结束的断点继续同步。

3)自定义时间:初次启动任务时,从指定的时间戳开始同步数据,再次启动任务时,从上次执行结束的断点继续同步。

4)如果断点状态丢失,则按照初次启动逻辑同步数据。

输出字段

配置读取 kafka 消息中哪些信息传输给下游算子

  • 时间戳(timestamp):消息的时间戳,消息的创建时间或到达kafka的时间

  • 分区(Partition):消息所在的分区

  • 消息键(key):消息的键

  • 偏移量(offset):消息的偏移量

  • topic:消息的topic名称

  • 消息内容(value):消息的实际内容

    1. 对于不同数据格式的value(json、键值对、Avro等),统一都转换为文本格式

    2. 先用转换算子进行解析,后续积累场景后,再在输入算子处,统一添加初始的解析逻辑

根据选择的数据内容,生成二维表

  1. 当只勾选value时,生成一列二维表,列名为value,值为消息内容

  2. 当勾选时间戳、分区、消息键、消息内容时,生成四列二维表,列名分别为timestamp、partition、key、vlaue

样本设置

设置开发过程中数据预览的采样量,方便用户查看每个算子转换的结果是否符合预期

通过「采样时间」和「最大数据行数」两个配置,从采样时间的时间点后采样数据

  1. 当采样的数据超过最大数据行数时,取最大数据行数的数据预览即可

  2. 采样时间通过时间范围设置,提供以下选项

    1. 前一天至今:采样「预览时间前1天0点」至「预览时间」的数据

    2. 前一周至今:采样「预览时间前1天0点」至「预览时间」的数据

    3. 前一个月至今:采样「预览时间前1天0点」至「预览时间」的数据

    4. 自定义时间:采样从「自定义时间」至「预览时间」的数据

  3. 采样的数据,不影响任务实际运行时的offset

数据预览按照配置的输出字段和样本设置进行采样后,展示数据

3. 操作步骤编辑