历史版本3 :分组汇总算子 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

FineDataLink 版本功能变动
4.1.1新增「分组汇总」算子,对原始数据根据条件将相同的数据先合并到一组,然后按照分组后的数据进行汇总计算

1.2 应用场景

分组汇总主要用于同类数据的汇总计算。

例如用户需要将产品名称相同的数据合并在一起并计算对应的汇款金额。示例效果如下所示:

1699859413844378.png

1.3 功能简介

新增「分组汇总」算子,对原始数据根据条件将相同的数据先合并到一组,然后按照分组后的数据进行汇总计算。如下图所示:

4.png

2. 示例编辑

「订单数据」表中,存在地区城市应付金额等字段,现希望知道每个地区的总应付金额

2.1 读取待处理数据

1)新建定时任务,拖入数据转换算子,进入数据转换算子。

2)拖入DB表输入算子,读取订单数据表。如下图所示:

16.png

2.2 获取地区的总应付金额

1)拖入「分组汇总」算子,将货主地区拖入维度分组中,选择相同值为一组;将应付金额拖入指标汇总中,选择求和。如下图所示:

17.png

2)点击数据预览,如下图所示:

18.png

2.3 后续步骤

用户可使用DB表输出算子将数据输出到数据库中。

或者对数据进行进一步处理,比如与订单数据表左右关联后,使用新增计算列算子求出每个城市的应付金额地区总应付金额的比例。

3. 功能说明编辑

「分组汇总」算子设置界面如下图所示:

注:支持仅配置「维度分组」字段或「指标汇总」字段。

6.png

3.1 维度分组

说明如下:

1)支持搜索字段、删除/重命名字段。如下图所示:

1699860395563706.png

字段名校验规则:

  • 不允许为空。

  • 限制长度<=30字符。

  • 只能是字母 (a-z A-Z)、数字 (0-9)、下划线(_)、或中文的组合。

  • 不能包含空格。

  • 不能与已有字段名和新增的其他字段名重复。

2)可重复拖入字段,拖入重复字段后,字段名称为「字段名1」,编号递增增加。

3)限制分组字段最多为 100 个。

4)可选字段数据列类型:日期时间数值文本布尔。其他类型字段:灰化不可选。具体说明如下表所示:

字段类型
支持分组方式说明
文本字段相同值为一组按照文本字段中的相同值分类;默认为相同值为一组
自定义分组

9.png

对文本包含的字段中自行定义分类:

1)支持新建分组,分组名可自定义(点击分组名直接编辑即可)
2)支持将未分组的值直接分组到一个自定义命名的分组,默认不开启
3)支持批量选定、搜索后全选,搜索后反选
4)未分组中的值只支持移动到自定义的分组中
5)自定义分组中的值支持移动到其他自定义的分组中,同时支持移出分组,移出分组效果即退回到未分组中
6)受采样数量限制,未获取到的字段值可手动添加,没有手动添加未采样到的值,若未选择将未分组的值直接分组到一个自定义命名的分组,则未采样的值实际执行则按维度原值计算;若选择,则实际执行按自定义命名的分组计算
7)自定义命名的分组支持填写参数,通过$引用文本类型参数

8)分组后是文本类型

数值字段相同值为一组按照数值字段的相同值为一类,默认为「相同值为一组」
区间分组

10.png

对数值内容自定义区间分类:

1)数值区间默认提供一个区间,分组默认名为「分组」;初始默认值为无限制≤值<无限制,支持更改大小于符号,校验数值(支持填写小数,限制小数位数 15 位 double 级别精度)

2)自定义分组支持添加、修改、删除分组,同时支持对分组自定义命名,支持将未定义分组的剩余值分组到一个自定义命名的分组

3)区间值支持填写参数,通过$引用数值类型参数

4)分组后是文本类型

时间字段
支持多种时间分组类型

11.png

1)包括年月日、年周数、年月、年季度、年份、季度、月份、月日、周数、星期、日、时、秒、分、年月日时、年月日分、年月日时分秒

  • 分组后是数值类型:季度、月份、星期、日、周数、时、分、秒

  • 分组后是时间类型:年份、年月日、年季度、年月、年周数、月日、年月日时、年月日时分、年月日时分秒

2)默认为「年月日」

3)预览的时间默认都为年月日时分秒,补全时间精度,例如获取了年份,则显示2021-01-01 00:00:00

布尔类型相同值为一组分组后依旧为布尔类型字段

2.2 指标汇总

说明如下:

1)支持搜索字段、删除/重命名字段。如下图所示:

1699864049179344.png

字段名校验规则:

  • 不允许为空。

  • 限制长度<=30字符。

  • 只能是字母 (a-z A-Z)、数字 (0-9)、下划线(_)、或中文的组合。

  • 不能包含空格。

  • 不能与已有字段名和新增的其他字段名重复。

2)可重复拖入字段,拖入重复字段后,字段名称为「字段名1」,编号递增增加。

3)限制指标字段最多为 100 个。

3)可选字段数据列分类:日期时间数值文本;布尔类型/其他类型字段:灰化不可选。具体说明如下表所示:

字段类型
支持汇总方式说明
文本字段
去重计数、记录个数、字符串去重拼接、第一项、最后一项

默认去重计

1)去重计数:该字段中相同的值只统计一次,即统计不同值的个数

2)记录个数:记录该字段有多少行数据,包含空值

3)字符串去重拼接:以/分隔符拼接,去重去空值

4)第一项:按该字段值排序顺序选择同组的第一行数据

5)最后一项:按该字段值排序顺序选择同组的最后一行数据

6)汇总后去重计数/记录个数:为数值字段

7)汇总后字符串去重拼接/第一项/最后一项:为文本字段

数值字段

求和、求平均、求最大值、求最小值、去重计数、记录个数、求方差、求标准差、求中位数


默认求和

1)求和:按分组字段分组后,返回每一组该数值求和

2)求平均:按分组字段分组后,返回每一组该数值平均

3)求最大值/最小值:按分组字段分组后,返回每一组该数值最大值/最小值

4)求方差:

1701221709381913.png

5)标准差:

1699864421756869.png

6)中位数:求取属于同一分组之下的所有数值中,从大到小排序后,处在中间位置的那个值。如果数值数量N是奇数个,则取排序后第(N+1)/2个。如果数值数量N是偶数个,则取排序后第N/2,第N/2+1个数的平均值

7)汇总后为数值字段

时间字段

去重计数、记录个数、最早时间、最晚时间


默认去重计数

1)最早时间:按分组字段分组后,返回每一组中日期时间最早(即最小)的数据

2)最晚时间:按分组字段分组后,返回每一组中日期时间最新(即最大)的数据

3)汇总后去重计数/记录个数:为数值字段

4)汇总后最早时间/最晚时间:为文本字段

「指标汇总」字段支持添加过滤条件,可选字段支持选中所有数据列和参数;计算逻辑:对符合条件的汇总字段先过滤再计算,不影响分组字段粒度。

1699864740478178.png

2.3 数据预览

默认预览前 1000 条数据,每页默认 20 条数据。