1. 概述
1.1 版本
| FineDataLink 版本 | 功能变动 |
|---|---|
| 4.2.4.3 | 新增实时采集任务 |
| 4.2.6.3 | 1)新增「依赖关系」Tab:展示依赖该实时采集任务的管道任务列表、实时任务列表 2)来源为 Oracle、MySQL、SQLServer 时,显示「日志解析延迟时间」 3)「解析中的表」Tab:新增实时统计、历史统计 4)可查看所有数据采集任务的运行情况 |
| 4.2.10.4 | 鼠标悬浮在来源表名称上,显示 Topic 的已使用存储、剩余可用存储、Topic 内数据最早时间信息 |
| 4.2.13.1 | 实时管道和实时任务来源端为 SQLServer时,实时采集任务:
|
| 4.2.14.1 | 1)实时采集任务详情页显示数据连接URL 2)删除按钮显示在实时采集任务的右上角 3)支持手动暂停实时采集任务 4)实时采集任务的状态进行优化更新 5)支持删除单个/多个实时采集任务中的表 6)支持查看补数记录;支持取消补数操作 |
1.2 功能简介
实时采集任务 被自动创建后,可在「管理系统>数据连接>实时采集任务」中查看运行详情。如下图所示:

2. 管理实时采集任务
2.1 筛选实时采集任务
可通过连接名称、任务名称、解析表、任务状态对实时采集任务进行筛选。如下图所示:

任务状态说明:
| 采集任务状态 | 说明 |
|---|---|
| 待启动 | 实时采集任务被创建后的初始状态(4.2.14.1 版本删除该状态) |
| 启动中 | 从启动到任务实际开始运行的时间都处于「启动中」(4.2.14.1 版本删除该状态) |
| 运行中 | 采集任务下至少有一个表处于「运行中」、「等待补数」状态 |
| 停止中 | 从任务运行到任务暂停的时间都处于「停止中」(4.2.14.1 版本删除该状态) |
| 已停止 |
|
| 运行错误 | 采集任务在启动中或者运行中,遇到任务级报错停止采集 比如日志找不到、数据连接断连、消息队列异常 |
2.2 重命名/删除/暂停实时采集任务
2.2.1 重命名
支持对实时采集任务重命名。如下图所示:

2.2.2 删除
实时采集任务状态为已停止、运行错误时,支持删除。如下图所示:

「删除」操作的应用场景:
已存在的采集任务不用了。
不需要已存在采集任务的断点。
采集任务断点的日志找不到了。
可以通过删除采集任务,重置该数据连接的采集任务。
删除逻辑:
删除采集任务时,即删除采集任务相关的所有信息,包括采集任务的断点、日志、该采集任务下的所有kafka topic、该采集任务下的所有kafka topic内的相关数据(包括因为补数产生的老topic)。
2.2.3 暂停
4.2.14.1 版本新增。
实时采集任务状态为运行中时,支持暂停。如下图所示:

「暂停」操作的应用场景:
当实时采集对数据库的的影响较大时,可以通过「暂停」按钮,立马停止采集任务。
暂停逻辑:
采集任务的手动暂停导致的实时管道、实时任务运行异常不触发时管道、实时任务的异常重试。
点击「暂停」按钮后,采集任务进入停止流程,停止采集该采集任务下所有表,状态从「运行中」切换至「停止中」并暂停所有补数线程。
使用该采集任务、正在运行中的实时任务报错中止:${采集任务名称}被手动暂停,${表list}同步中止
使用该采集任务、正在运行中的实时管道报错中止:${采集任务名称}被手动暂停,实时同步中止
2.3 补数
补数逻辑定义:
实时管道、实时任务中新添加表、同步时间早于实时采集任务的最早数据、历史表恢复同步等操作,属于补数逻辑。
即当前采集任务已解析到最新时间,但由于实时管道、实时任务的需要,重新解析之前的日志,导致短时间内有多个线程解析日志,称为补数。
注:当一个表出现异常时,整个补数逻辑都会报错中止。
1)新加表/历史表恢复采集时,该表展示在实时采集任务中,表状态为解析中,排队时显示等待补数。
2)4.2.14.1 及之后版本,若采集任务历史执行过补数,或者正在执行补数,可在实时采集任务详情页点击「查看补数记录」按钮,查看补数记录。如下图所示:

补数记录页面如下图所示:

| 列名 | 含义 | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 创建时间 | 该补数逻辑的创建时间 | ||||||||||
| 开始采集起点 | 该补数逻辑的采集器开始采集的时间点 | ||||||||||
| 状态 |
| ||||||||||
| 补数的表 |
|
3)由于误操作,启动了一个需要耗费很长时间的补数逻辑,4.2.14.1 及之后版本支持取消补数。
当补数逻辑在等待补数、补数中时,提供取消按钮。补数逻辑取消后:
删除此子采集器相关的kafka topic及其topic内相关数据
依赖该补数逻辑正在运行中的实时任务报错中止:「采集任务中,${表名}的补数被手动取消,同步中止」
依赖该补数逻辑正在运行中的实时管道-表报错中止:「采集任务中,${表名}的补数被手动取消,同步中止」;其余没有暂停的表,继续正常同步
3. 单个实时采集任务运维
选中单个实时采集任务,可查看实时采集任务的基本信息、解析中的表、依赖关系、运行日志。如下图所示:

3.1 基本信息
可在此处查看实时采集任务的数据连接名称、读取方式、任务创建时间、最新读取消息时间、日志解析延迟时间(4.2.6.3 及之后版本新增)、数据连接URL(4.2.14.1 版本新增)。如下图所示:

仅来源为 Oracle、MySQL、SQLServer 时,才显示「日志解析延迟时间」:
| 数据库类型 | 额外展示信息 | 计算逻辑 |
|---|---|---|
| Oracle、MySQL |
| 日志解析延迟时间=源库当前时间 - 源库最新日志时间 |
| SQLServer | - |
|
3.2 解析表
注:4.2.6.3 及之后版本新增「实时统计」和「历史统计」Tab。
3.2.1 实时统计
显示该采集任务正在采集的所有表。界面如下图所示:

1)表格列名及读取总量含义说明如下表所示:
| 设置项 | 说明 |
|---|---|
| 指标:读取总量 | 任务所有表读取的总消息量(仅包含增量部分) 已读取的消息,分增删改展示;读取总量=插入数据量+更新数据量+删除数据量 |
| 表格数据列说明 | 来源表名: 4.2.10.4 及之后版本,鼠标悬浮在来源表名称上,显示 Topic 的已使用存储、剩余可用存储、Topic 内数据最早时间信息:
|
所属任务:表属于的具体实时管道任务/实时任务 | |
开始采集起点:该表当前采集器开始采集的时间点 | |
| 最新读取消息时间:- | |
读取量:任务内单表读取消息总量(仅包含增量部分);分增删改展示
| |
创建时间:第一次创建该表采集的时间 | |
状态: 1)补数进行中:补数状态 当补更早数据时,一个表既在被主采集器采集、又在被子采集器采集,此时状态为「解析中」+「等待补数」 2)解析中(运行中):表正在采集 3)已停止:
4)运行错误:表在启动中或者运行中,遇到表级报错停止采集
|
2)4.2.14.1 及之后版本,支持批量删除实时采集任务中的表。如下图所示:

3)4.2.14.1 及之后版本,未被使用的采集任务中的表,会进行提示。如下图所示:

3.2.2 历史统计
界面如下图所示:

1)用户可选择近2小时、近24小时、近3天、近7天、近15天时间段,查看读取详情。如下图所示:

2)指标卡-读取总量以柱形图展示,支持点击放大查看,展示每个等分时间段内的任务所有表读取消息的增量。如下图所示:
可查看指定时间段内的数据增删改情况;支持通过当前任务、来源表进行筛选。

3.3 依赖关系
注:4.2.6.3 及之后版本新增「依赖关系」Tab。
展示依赖该实时采集任务的管道任务列表、实时任务列表,展示对应管道/实时任务的任务名称、任务类型、任务状态、使用的表。如下图所示:

点击任务名称,可跳转到对应的管道/实时任务。
3.4 运行日志
展示该实时采集任务的运行日志。如下图所示:

可对任务运行日志进行筛选。如下图所示:

4. 所有实时采集任务运维
实时采集任务列表中,点击「所有任务」,可查看所有实时采集任务的运行情况。注:4.2.6.3 及之后版本,支持该功能。
支持通过连接名称(4.2.14.1 版本新增)、任务名称、最近启动时间筛选实时采集任务。如下图所示:

可点击任务名称,可跳转到该实时采集任务的详情页。
