历史版本4 :定时任务数据量说明 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本说明

FineDataLink 版本功能变动
4.0.17
  • 新增「样本设置」功能
  • 预览数据量默认显示 1000 行,同时支持显示字段数据类型

1.2 应用场景

在进行定时任务数据开发时,用户经常需要预览数据查看任务计算的结果是否正确。

1.3 功能说明

  • FineDataLink 支持在「数据转换」的输入型算子中进行「样本设置」,即在预览界面,设置用多少数据去参与运算。

  • FineDataLink 「数据同步」、「参数赋值」、「数据转换」支持预览数据量默认显示 1000 行,同时支持显示字段数据类型,便于用户进行数据处理和计算。注:「数据转换」中只有输入型算子显示预览 1000 行。

提高用户开发调试效率,使用户在设计阶段能尽量提早发现数据问题。

2. 样本设置编辑

示例数据:DEMO_CONTRACT.xlsxCUSTOMER.xls

用户需要将文件数据通过「客户ID」字段进行关联,让合同信息带上客户数据。

使用文件输入进行数据源输入,然后使用「Spark SQL」进行数据计算,如下图所示:

由于「CUSTOMER」数据表数据量较大,此时「样本设置」默认采样量为「5000」,即预览界面用5000数据去参与运算。在数据关联后「CUSTOMER」表中 5000 行之后的数据不参与计算,在数据结果预览中就不能很好的确认计算是否正确,如下图所示:

为了避免这种情况,可以选择「CUSTOMER」文件输入算子,点击「样本设置」,设置采样量为「全量数据」,即在数据预览时使用全量数据去进行计算,如下图所示:

得到计算后的数据预览结果,看到的是使用全量数据计算后的结果,如下图所示:

3. 数据预览编辑

FineDataLink 「数据同步」、「参数赋值」、「数据转换」支持预览数据量默认显示 1000 行,同时支持显示字段数据类型,便于用户进行数据处理和计算。注:「数据转换」中只有输入型算子显示预览 1000 行。

从数据库解析至 FineDataLink 的字段类型如下所示:

 FineDataLink 的字段类型 数据库的字段类型
文本varchar
数值int、long、float、double
时间date、timestamp
其他binary、boolean

4. 数据解析量编辑

在进行任务开发时,数据输入首先会进行数据解析,解析后的数据根据「样本设置」量计算后通过数据预览展示结果。

不同输入源数据解析量逻辑如下表所示:

场景
逻辑
数据同步\参数赋值 

文件数据集(解析首行)、API取数解析(解析整段)、MongoDB取数(前100行)

数据转换

文件数据集(解析首行)、API取数解析(解析整段)、MongoDB取数(前100行)、文件输入(前5000行)

JSON解析(解析选择字段的首行)、XML解析(解析选择字段的首行)