1. 概述编辑
1.1 概念
自助数据集的作用:
构建 BI 基础的数据模型,进行一定的数据处理,并建立数据表建的关联,供后续进行业务分析
对已有的数据进行业务方面的自助探索和分析;
将处理后的表保存到业务包中,作为后续数据可视化的基础。
1.2 功能简介
实现内容 | |
---|---|
选择字段 | 选择字段指将需要做数据加工处理的字段添加进来,不需要的表和字段不用添加 自助数据集可对创建了 关联 的两个数据集进行跨表选字段 |
过滤 | 对已有的数据进行过滤,包括公式过滤和条件过滤,以此选择需要的数据内容 |
分组汇总 | 对原始数据根据条件将相同的数据先合并到一组,然后按照分组后的数据进行汇总计算 |
新增列 | 在不影响原数据的情况下通过对现有数据列计算而得到的一个新的数据列,保存在业务包中以供后续业务分析使用。 比如「数据格式的转化、时间差、分组赋值、获取时间、组内排名」等等 |
字段设置 | 对已经选择在自助数据集中的字段进行「取消选择该字段」或者「修改字段名称」操作 |
排序 | 在原数据表的基础上新增一张表对字段进行重新排序并保存 |
左右合并 | 将两张表「左右拼接」在一起形成一张新表使用 |
上下合并 | 将两张表「上下拼接」成一张新表使用 |
1.3 分类
自助数据集的性质分为:数据分析性质&&数据处理性质,所以对应的自助数据集也称为数据分析表&&数据处理表,如下图所示:
自助数据集的性质 | 创建用户 | 业务包 |
---|---|---|
数据处理性质 | 数据处理用户 | 普通业务包 |
数据分析性质 | 数据分析用户 | 普通业务包/我的自助数据集业务包 |
数据处理用户 | 我的自助数据集业务包 |
注:数据分析用户和数据处理用户详情参见:BI设计用户
2. 自助数据集创建编辑流程编辑
在创建自助数据集后,需要先进行选表选字段的操作,随后可进行一系列的表处理操作,如下图所示:
创建自助数据集并选择表和字段请参见:新建自助数据集
3. 使用推荐编辑
自助数据集的一般性使用推荐如下所示:
自助数据集性质 | 使用推荐 |
---|---|
数据处理性质 | 对业务提出的数据要求进行基础加工和建模 |
数据分析性质 | 使用已经进行加工和建模后的数据进行业务方面的自助分析和探索 |
4. 不同自助数据集特征编辑
如下图所示:
注:普通业务包下的自助数据集可通过 权限管理 进行权限控制,我的自助数据集业务包无法进行权限控制。
5. 操作建议编辑
在使用数据集进行数据处理和分析的时候,规范的操作步骤可以避免分析可能出现的错误,顺利进行分析。本节介绍在进行数据加工时的使用操作建议。
5.1 添加数据表
尽可能少的直接 添加数据库表,用户可以根据实际业务整理出比较通用的 SQL 数据集,然后在 SQL 数据集的基础上进行添加自助数据集等数据加工操作。
5.2 自助数据集表处理操作
自助数据集的表处理操作步骤不建议超过15个。
在进行几步表处理步骤后保存自助数据集,然后将其更新信息中抽取设置为不抽取数据,(以数据处理用户为例)如下图所示:
在这个自助数据集的基础上继续添加自助数据集进行表处理操作。
5.3 抽取设置
自助数据集可以进行抽取设置,对于一些不需要展示的中间数据集,可以设置为不抽取。
5.3.1 示例
若存在如下情况:需要对自助数据集产品表和回款表分别做过滤,然后将两张表做左右合并再进行汇总分析,创建一张新的自助数据集。
1)在实际分析中,只需要左右合并后的自助数据集用于数据可视化分析,中间过程做的产品表、回款表自助数据集是不需要抽取数据保存的,但是需要该配置用于后续的左右合并操作,则可以为产品表和回款表在更新信息下选择不抽取数据,如下图所示:
2)创建一张新的自助数据集以后,就可以使用该产品表和回款表进行左右合并操作,如下图所示:
注:取消抽取数据的自助数据集不需要更新就可以被后续的自助数据集使用。
3)然后为该进行左右合并后的自助数据集选择抽取数据更新即可,就保证了在数据量较大时,中间步骤更新慢占用空间大的问题。且配置好的数据分析自助数据集不需要抽取就可以进行仪表板的分析,如下图所示: