1. 概述编辑
1.1 概念
自助数据集是指:
对分布的、异构数据源中的数据,比如关系数据等底层数据进行一定的处理和加工;
或者对已有的数据进行业务方面的自助探索和分析;
将处理后的表保存到业务包中,作为后续数据可视化的基础。
1.2 分类
自助数据集的性质分为:数据分析性质&&数据处理性质,所以对应的自助数据集也称为数据分析表&&数据处理表,如下图所示:
自助数据集的性质 | 创建用户 | 业务包 |
---|---|---|
数据处理性质 | 数据处理用户 | 普通业务包 |
数据分析性质 | 数据分析用户 | 普通业务包/我的自助数据集业务包 |
数据处理用户 | 我的自助数据集业务包 |
注:数据分析用户和数据处理用户详情参见:BI设计用户 。
2. 使用推荐编辑
自助数据集的一般性使用推荐如下所示:
自助数据集性质 | 使用推荐 |
---|---|
数据处理性质 | 对业务提出的数据要求进行基础加工和建模 |
数据分析性质 | 使用已经进行加工和建模后的数据进行业务方面的自助分析和探索 |
3. 不同自助数据集特征编辑
如下图所示:
注:普通业务包下的自助数据集可通过 权限管理 进行权限控制,我的自助数据集业务包无法进行权限控制。
4. 自助数据集创建编辑流程编辑
在创建自助数据集后,需要先进行选表选字段的操作,随后可进行一系列的表处理操作,如下图所示:
创建自助数据集并选择表和字段请参见:新建自助数据集
表处理流程框可以选择的处理方式包括 选择字段、过滤、分组汇总、新增列、字段设置、排序、左右合并、上下合并
对自助数据集进行管理请参见:管理自助数据集
5. 操作建议编辑
在使用数据集进行数据处理和分析的时候,规范的操作步骤可以避免分析可能出现的错误,顺利进行分析。本节介绍在进行数据加工时的使用操作建议。
5.1 添加数据表
尽可能少的直接 添加数据库表,用户可以根据实际业务整理出比较通用的 SQL 数据集,然后在 SQL 数据集的基础上进行添加自助数据集等数据加工操作。
5.2 自助数据集表处理操作
自助数据集的表处理操作步骤不建议超过15个。
在进行几步表处理步骤后保存自助数据集,然后将其更新信息中抽取设置为不抽取数据,(以数据处理用户为例)如下图所示:
在这个自助数据集的基础上继续添加自助数据集进行表处理操作。
5.3 抽取设置
自助数据集可以进行抽取设置,对于一些不需要展示的中间数据集,可以设置为不抽取。
5.3.1 示例
若存在如下情况:需要对自助数据集产品表和回款表分别做过滤,然后将两张表做左右合并再进行汇总分析,创建一张新的自助数据集。
1)在实际分析中,只需要左右合并后的自助数据集用于数据可视化分析,中间过程做的产品表、回款表自助数据集是不需要抽取数据保存的,但是需要该配置用于后续的左右合并操作,则可以为产品表和回款表在更新信息下选择不抽取数据,如下图所示:
2)创建一张新的自助数据集以后,就可以使用该产品表和回款表进行左右合并操作,如下图所示:
注:取消抽取数据的自助数据集不需要更新就可以被后续的自助数据集使用。
3)然后为该进行左右合并后的自助数据集选择抽取数据更新即可,就保证了在数据量较大时,中间步骤更新慢占用空间大的问题。且配置好的数据分析自助数据集不需要抽取就可以进行仪表板的分析,如下图所示: