分组汇总基础功能

  • 文档创建者:doreen0813
  • 编辑次数:23次
  • 最近更新:Roxy 于 2021-01-22
  • 1. 概述

    分组汇总在线视频学习请参见: 分组汇总 

    1.1 版本

    FineBI 版本
    JAR 功能变动
    5.1 - -
    2020-08-04 删除自助数据集自定义分组中的复制到分组功能 
    5.1.62020-09-30

    「实时数据」字段汇总方式增加「近似去重计数」的功能

    注:支持的数据库版本:CLICKHOUSE、ORACLE(12.1或以上)、SQLSERVER(2019或以上)、PRESTO、REDSHIFT、VERTICA、MAXCOMPUTE。

    1.2 应用场景

    例如用户需要将产品名称相同的数据合并在一起并计算对应的汇款金额,示例效果如下所示:

    1596011262169860.png

    1.3 功能简介

    分组汇总是指对原始数据根据条件将相同的数据先合并到一组,然后按照分组后的数据进行汇总计算。

    BI 中通过设置分组字段和汇总字段实现。

    注:从 2018-11-16 之后的版本,年周粒度的周计算逻辑采用 iso标准的周逻辑 ,每周开始的第一天为周日,每年包含 52 或 53 周,每年的第一周必须包含 1 月 4 日。从而保证每周都有 7 天的数据,更符合业务场景。  周开始的时间可参考 常规参数 的 2.9 节修改。

    2. 示例

    本例展示每个季度长期合同与短期合同对应合同金额平均值。

    2.1 添加数据表

    1)登录数据决策系统,进入「数据准备>业务包」,点击「添加表>自助数据集」,如下图所示:

    63.png

    2)进入自助数据集配置界面,从业务包的数据表中选择需要的字段,右侧预览中即显示选择的字段,如下图所示:

    注:此处只能选择已添加并进行数据更新的数据表,未更新的数据表不能用于创建自助数据集。  

    50.png

    2.2 添加分组字段

    2.2.1 选择分组字段

    1)在左侧的操作流程中选择分组汇总,如下图所示:

    70.png

    2)进入分组汇总配置界面,将「合同签约时间」和「合同类型」字段拖入分组栏,如下图所示:

    732.png

    2.2.2 设置分组方式

    1)点击字段「下拉」,对「合同签约时间」 选择「年季度」分组方式,如下图所示:

    99.png

    2)点击字段「下拉」,对「合同类型」 选择「自定义」分组方式,如下图所示:

    70.png

    弹出设置框,点击「添加分组」,修改组名为「长期订单」,如下图所示:

    57.png

    选择「长期协议订单」和「长期协议」,点击「移动到」,将其移动至「长期订单」分组下,如下图所示:

    1596092999460637.png

    勾选未分组的值分到,输入分组名为「短期订单」,点击「确定」,则分组成功,如下图所示:

    50.png

    2.2.3 分组字段设置支持范围

    分组字段支持添加「文本字段」、「数值字段」、「时间字段」,默认不填入字段,均支持重命名、删除字段操作。

    字段类型
    支持分组方式说明
    文本字段
    • 相同值为一组

    • 自定义分组

    • 相同值为一组即表示按照文本字段中的相同值分组

    • 自定义分组即表示对文本包含的字段中自行定义分组

    数值字段
    • 相同值为一组

    • 区间分组

    • 相同值为一组即按照数值字段的相同值为一组

    • 区间分组包含两种方式:自动和自定义分组。

    • 自动分组系统默认根据最大最小值设置区间间隔,分为 5 组,其中区间间隔的数值也可修改。

    • 自定义分组默认按照自动分组的区间间隔设置分组,区间间隔可以修改。支持添加、修改、删除分组,同时支持对分组自定义命名和将未定义分组的剩余值分组到一个自定义命名的分组,且该项默认开启。

    时间字段支持 17 种分组类型,包括年月日、年份、季度、月份、星期、日、周数、时、分、秒、年季度、年月、年周数、年月日时、年月日时分、年月日时分秒

    2.3 添加汇总字段

    2.3.1 选择汇总字段

    将「合同金额」字段拖入汇总栏,如下图所示:

    99.png

    2.3.2 设置汇总方式

    点击字段「下拉」,对「合同金额」 选择「平均」汇总方式,如下图所示:

    60.png

    2.3.3 汇总字段设置支持范围

    分组字段支持添加「文本字段」、「数值字段」、「时间字段」,默认不填入字段,均支持重命名、删除字段操作。

    字段类型支持分组方式
    说明
    文本字段
    • 去重计数

    • 记录个数

    • 字符串拼接 注:仅「抽取数据」支持。

    • 近似去重计数 注:仅「实时数据」支持。

    • 去重计数是指将该字段中相同的值只统计一次,即统计不同值的个数,可以理解为count(distinct字段)

    • 记录个数是指记录这个字段一共有多少个,相当于count(*)

    • 字符串拼接是指按分组栏将该字段下的数据值进行字符串的拼接,拼接成一个值。

    • 当计算数据非常大时,传统的精确的去重计数可能算不出来,使用近似的去重计数可以很快计算出结果。

    注:计算结果精确度取决于数据库类型和数据量,理论上数据量越小与去重计数结果差别越小。

    数值字段
    • 求和

    • 求平均

    • 求最大值

    • 求最小值

    • 去重计数

    • 近似去重计数 注:仅「实时数据」支持。

    • 记录个数

    • 求方差

    • 求标准差

    • 求中位数 默认为求和

    • 求同期

    • 求环期

    • 求同比

    • 求环比,默认选择无

    其中求同期与求同比又有年、月、周的时间周期选项,默认选择年。(同期、环期、同比、环比的详细使用请参考 表格快速计算 )
    时间字段
    • 去重计数

    • 近似去重计数 注:仅「实时数据」支持。

    • 记录个数

    • 最早时间

    • 最晚时间

    • 去重计数是指将该字段中相同的值只统计一次,即统计不同值的个数,可以理解为count(distinct字段)

    • 当计算数据非常大时,传统的精确的去重记录数可能算不出来,使用近似的去重记录数可以很快计算出结果。

    注:计算结果精确度取决于数据库类型和数据量,理论上数据量越小与去重计数结果差别越小。

    • 记录个数是指记录这个字段一共有多少个,相当于count(*)

    • 最早时间和最晚时间指的是分组内的最早、最晚时间。

    注:「近似去重计数」功能支持的数据库版本:CLICKHOUSE、ORACLE(12.1或以上)、SQLSERVER(2019或以上)、PRESTO、REDSHIFT、VERTICA、MAXCOMPUTE。当数据库系统为REDSHIFT时,由于REDSHIFT的限制,只能同时对同一个字段做需要排序的聚合操作(如求去重计数、中位数、百分位、近似去重计数),同时对2个或以上的字段做此种聚合操作会发生错误。当数据库系统为VERTICA时,由于VERTICA的限制,只能同时使用(精确)去重计数或近似去重计数中的一个。

    2.4 效果查看

    分组汇总设置完毕以后点击右上角的保存按钮并在更新数据后,在业务包中能看到新建的自助数据集,如下图所示:

    00.png

    3. 注意事项

    若选择的分组字段为数值型,且数值大小为无穷时,无法选择区间分组选项,点击区间分组后无反应。如下图所示:

    f.png


    附件列表


    主题: 数据加工
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!