历史版本2 :②(可选)使用自助数据集做数据处理 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

大多数时候,我们收集到的原始数据并不能直接拿来分析使用。在分析前进行数据预处理,有助于提升数据分析质量,保障分析结果的准确性和可靠性。

这个步骤难度较高,在很多企业中由IT人员或数据分析师完成。

2. 场景编辑

2.1 数据处理

连接到数据以后,先自己判断一下,这样的数据是否能够满足分析诉求。如果你认为手里的数据质量较好可以直接进行可视化分析,可以学习「创建组件和分析数据」。

若数据存在一定瑕疵,需要处理,需要通过「自助数据集」,对数据进行分析。

2021-09-30_16-18-54.png

我们可以在数据准备中创建自助数据集。详情参见:自助数据集

2021-10-07_11-41-03.png

2.2 如何实现多表合并

将几张数据不同但存在一定联系的表合并为一张宽表,从而实现多表合并。拼接表场景分为上下拼接、左右拼接两种。

上下拼接多表:

左右拼接多表:

详情参考文档:如何实现拼表

2.3 如何修改字段类型

例如,想看绩效和员工入行年龄之间的关系。制作柱形图,看不同行龄的绩效平均值。

2021-10-07_11-34-50.png

发现行龄是数值字段,无法拖入维度区域。

2021-10-07_11-24-42.png

需要在自助数据集内,修改数值类型。

详情参见:字段设置

2021-10-07_11-31-53.png

3. 示例编辑

大多数时候,我们收集到的原始数据并不能直接拿来分析使用。

3.1 上传原始数据

首先,先上传原始数据。

1)打开「数据准备>添加业务包」,重命名为「入门业务包」,点击进入业务包下「添加表>Excel数据集」。

2021-09-29_16-19-37.png

2)点击「上传数据」,按住shift键,可同时选择多个表,并一起上传,点击「确定」。

2021-09-29_16-20-04.png

3)上传后,点击「确定」。完成数据上传,并自动更新数据。

2021-09-29_16-20-33.png

3.2 创建自助数据集

上传完原始数据后,选中需要创建自助数据集的表「商品信息维度表」点击「创建自助数据集」,点击「确定」。

2021-09-29_16-23-07.png

3.3 选字段

进入自助数据集中,左侧区域显示添加的数据处理步骤,数据处理第一步是「选字段」,选中「数据列表/入门业务包」下的「商品信息维度表」,全选表内字段,在右侧区域显示添加到自助数据集中的字段。如下图所示:

2021-09-29_16-23-34.png

3.4 多表合并

3.4.1 添加合并步骤

点击「+」添加「左右合并」步骤。

2021-09-29_16-23-46.png

3.4.2 添加合并数据

选择需要合并的表「商品销售明细表」内全部字段。

2021-09-29_16-24-07.png

3.4.3 设置合并效果

确认合并表,然后选择合并方式「并集合并」保留所有数据,设置合并表的依据字段「商品编码」。在下方预览区域可看到合并效果。

2021-09-30_11-28-41.png

3.4.4 合并第2张表

设置步骤同上。添加「门店信息维度表」。如下图所示:

2021-09-30_11-42-19.gif

3.5 字段设置

3.5.1 添加字段设置步骤

点击「+」继续添加步骤,选择「字段设置」。

2021-09-30_14-21-52.png

字段设置支持,删除字段,修改字段类型,重命名字段名,调整字段显示顺序。最后效果在右侧查看。

2021-09-30_14-35-59.png

例如,在制作组件的时候,只有日期和文本类型的字段可以作为维度,进行分析。数值字段只能作为指标展示分析的结果值。若在仪表板发现维度不能拖入所需字段,可返回自助数据集进行。

3.5.2 调整字段位置

例如,数据目前是杂乱呈现,可以调整一下位置,按照不同的字段类型展示数据。让表格更清晰。

2021-09-30_16-05-08.gif

3.6 过滤数据

我们发现合并表后,出现了一个一条多余的数据,这时候我们可以通过添加过滤条件,去除掉它。

2021-09-30_16-18-54.png

可以通过「添加条件」,选择「省份」字段,过滤掉省份「不属于」空的数据实现。如下图所示:

2021-09-30_16-20-33.png

3.7 计算毛利额

如果我们想对原始数据进行计算,新增一列展示计算结果。可以使用新增列,添加运算公式得到结果。

例如,数据集中有「销售额」和「成本额」,想通过这两个数据相减得出「毛利额」。可以在左侧点击「+」添加「新增列」步骤实现。

2021-10-06_14-53-53.png

2)新增的列,命名为「毛利额」,点击左侧,添加计算的字段「销售额」和「成本额」,运算符号「-」在输入公式的上方添加,完成后,点击「确定」。

2021-10-06_14-54-08.png

进入自助数据集中,在数据预览区域可以看到新增的「毛利额」字段。点击表名重命名为「入门表」,点击「保存并更新」。成功保存新建的「入门表」。

2021-10-06_14-54-18.png

完成后,在「数据准备>入门业务包>入门表」中,点击「数据预览」,即可查看数据。

2021-10-07_0-11-55.png