1. 概述
1.1 版本
FineDataLink 版本 | 功能变动 |
---|---|
4.1.2 | 新增「分组汇总」算子,对原始数据根据条件将相同的数据先合并到一组,然后按照分组后的数据进行汇总计算 |
4.1.6.1 |
|
1.2 应用场景
分组汇总主要用于同类数据的汇总计算。
例如用户需要将产品名称相同的数据合并在一起并计算对应的汇款金额。示例效果如下所示:
1.3 功能简介
新增「分组汇总」算子,对原始数据根据条件将相同的数据先合并到一组,然后按照分组后的数据进行汇总计算。如下图所示:
2. 示例
「订单数据」表中,存在地区、城市、应付金额等字段,现希望知道每个地区的总应付金额。
2.1 读取待处理数据
1)新建定时任务,拖入「数据转换」算子,进入「数据转换」算子。
2)拖入「DB表输入」算子,读取「订单数据」表。如下图所示:
2.2 获取地区的总应付金额
1)拖入「分组汇总」算子,将货主地区拖入维度分组中,选择「相同值为一组」;将应付金额拖入指标汇总中,选择「求和」。如下图所示:
2)点击「数据预览」,如下图所示:
2.3 后续步骤
用户可使用「DB表输出」算子将数据输出到数据库中。
或者对数据进行进一步处理,比如与「订单数据」表左右关联后,使用「新增计算列」算子求出每个城市的应付金额占地区总应付金额的比例。
3. 功能说明
「分组汇总」算子设置界面如下图所示:
注:支持仅配置「维度分组」字段或「指标汇总」字段。
3.1 维度分组
说明如下:
1)支持搜索字段、删除/重命名字段。如下图所示:
4.1.6.1 后的版本支持切换维度和指标,如下图所示:
且支持拖拽移除,如下图所示:
字段名校验规则:
不允许为空。
限制长度<=30字符。
只能是字母 (a-z A-Z)、数字 (0-9)、下划线(_)、或中文的组合。
不能包含空格。
不能与已有字段名和新增的其他字段名重复。
2)可重复拖入字段,拖入重复字段后,字段名称为「字段名1」,编号递增增加。
3)限制分组字段最多为 100 个。
4)可选字段数据列类型:日期时间、数值、文本、布尔。其他类型字段:灰化不可选。具体说明如下表所示:
字段类型 | 支持分组方式 | 说明 |
---|---|---|
文本字段 | 相同值为一组 | 按照文本字段中的相同值分类;默认为「相同值为一组」 |
自定义分组 | 对文本包含的字段中自行定义分类: 1)支持新建分组,分组名可自定义(点击分组名直接编辑即可) 8)分组后是文本类型 | |
数值字段 | 相同值为一组 | 按照数值字段的相同值为一类,默认为「相同值为一组」 |
区间分组 | 对数值内容自定义区间分类: 1)数值区间默认提供一个区间,分组默认名为「分组」;初始默认值为无限制≤值<无限制,支持更改大小于符号,校验数值(支持填写小数,限制小数位数 15 位 double 级别精度) 注:4.1.6.1 版本后不支持设置右侧区间数值为无限制。 2)自定义分组支持添加、修改、删除分组,同时支持对分组自定义命名,支持将未定义分组的剩余值分组到一个自定义命名的分组 3)区间值支持填写参数,通过$引用数值类型参数 4)分组后是文本类型 | |
时间字段 | 支持多种时间分组类型 | 1)包括年月日、年周数、年月、年季度、年份、季度、月份、月日、周数、星期、日、时、秒、分、年月日时、年月日分、年月日时分秒
2)默认为「年月日」 3)预览的时间默认都为年月日时分秒,补全时间精度,例如获取了年份,则显示2021-01-01 00:00:00 |
布尔类型 | 相同值为一组 | 分组后依旧为布尔类型字段 |
3.2 指标汇总
说明如下:
1)支持搜索字段、删除/重命名字段。如下图所示:
字段名校验规则:
不允许为空。
限制长度<=30字符。
只能是字母 (a-z A-Z)、数字 (0-9)、下划线(_)、或中文的组合。
不能包含空格。
不能与已有字段名和新增的其他字段名重复。
2)可重复拖入字段,拖入重复字段后,字段名称为「字段名1」,编号递增增加。
3)限制指标字段最多为 100 个。
3)可选字段数据列分类:日期时间、数值、文本;布尔类型/其他类型字段:灰化不可选。具体说明如下表所示:
字段类型 | 支持汇总方式 | 说明 |
---|---|---|
文本字段 | 去重计数、记录个数、字符串去重拼接、第一项、最后一项 | 默认去重计数 1)去重计数:该字段中相同的值只统计一次,即统计不同值的个数 2)记录个数:记录该字段有多少行数据,包含空值 3)字符串去重拼接:以/分隔符拼接,去重去空值 4)第一项:按该字段值排序顺序选择同组的第一行数据 5)最后一项:按该字段值排序顺序选择同组的最后一行数据 6)汇总后去重计数/记录个数:为数值字段 7)汇总后字符串去重拼接/第一项/最后一项:为文本字段 注:分组汇总对文本字段进行汇总时,当前限制长度为10w。 |
数值字段 | 求和、求平均、求最大值、求最小值、去重计数、记录个数、求方差、求标准差、求中位数 | 默认求和 1)求和:按分组字段分组后,返回每一组该数值求和 2)求平均:按分组字段分组后,返回每一组该数值平均 3)求最大值/最小值:按分组字段分组后,返回每一组该数值最大值/最小值 4)求方差: 5)标准差: 6)中位数:求取属于同一分组之下的所有数值中,从大到小排序后,处在中间位置的那个值。如果数值数量N是奇数个,则取排序后第(N+1)/2个。如果数值数量N是偶数个,则取排序后第N/2,第N/2+1个数的平均值 7)汇总后为数值字段 |
时间字段 | 去重计数、记录个数、最早时间、最晚时间 | 默认去重计数 1)最早时间:按分组字段分组后,返回每一组中日期时间最早(即最小)的数据 2)最晚时间:按分组字段分组后,返回每一组中日期时间最新(即最大)的数据 3)汇总后去重计数/记录个数:为数值字段 4)汇总后最早时间/最晚时间:为文本字段 |
「指标汇总」字段支持添加过滤条件,可选字段支持选中所有数据列和参数;计算逻辑:对符合条件的汇总字段先过滤再计算,不影响分组字段粒度。
3.3 数据预览
默认预览前 1000 条数据,每页默认 20 条数据。