反馈已提交

网络繁忙

②(可选)使用自助数据集做数据处理

  • 文档创建者:April陶
  • 编辑次数:24次
  • 最近更新:April陶 于 2022-05-17
  • 1. 概述

    大多数时候,我们收集到的原始数据并不能直接拿来分析使用。在分析前进行数据预处理,有助于提升数据分析质量,保障分析结果的准确性和可靠性。


    完成「连接到数据」,先自己判断一下,这样的数据是否能够满足分析诉求。

    • 如果你认为数据质量较好,可以直接进行可视化分析,可以跳过本章,学习「创建组件和分析数据」。

    • 如果数据存在一定瑕疵,需要处理,需要通过「自助数据集」,对数据进行分析。

    2. 常见场景

    2.1 数据处理

    数据存在瑕疵时,需要进行数据处理。例如,数据存在一些需要删除的不规律数据。如下图所示:

    2021-09-30_16-18-54.png

    我们可以在数据准备中创建自助数据集。详情参见:自助数据集

    2021-10-07_11-41-03.png

    2.2 如何实现多表合并

    将几张数据不同但存在一定联系的表合并为一张宽表,从而实现多表合并。拼接表场景分为上下拼接、左右拼接两种。

    左右拼接多表

    上下拼接多表

    详情参考文档:如何实现拼表

    2.3 如何修改字段类型

    例如,想看绩效和员工入行年龄之间的关系。制作柱形图,看不同行龄的绩效平均值。

    2021-10-07_11-34-50.png

    发现行龄是数值字段,无法拖入维度区域。

    2021-10-07_11-24-42.png

    需要在自助数据集内,修改数值类型。

    详情参见:字段设置

    2021-10-07_11-31-53.png

    3. 示例

    示例将介绍,如何将多表拼成一张,并简单处理一下数据,使其变的有条理。

    3.1 上传原始数据

    首先,先上传原始数据。示例数据下载:入门表.rar

    1)数据存放在业务包内。打开「数据准备>添加业务包」,重命名为「入门业务包」,点击进入业务包下「添加表>Excel数据集」。

    2)点击「上传数据」,按住 shift 键,可同时选择多个表,并一起上传,点击「确定」。

    3)上传后,点击「确定」。完成数据上传,并自动更新数据。

    完成数据上传后,「创建自助数据集」将上传的三个表拼成一张宽表。

    3.2 创建自助数据集

    1)上传完原始数据后,选中需要创建自助数据集的表「商品信息维度表」点击「创建自助数据集」,点击「确定」。

    2)数据处理第一步是「选字段」,选中「数据列表/入门业务包」下的「商品信息维度表」,全选表内字段。

    说明:

    进入自助数据集中,左侧区域显示添加的数据处理步骤。在右侧区域显示「分析步骤」对应的分析区域。

    2022-02-25_16-59-21.png

    3.3 多表合并

    3.3.1 合并第1张表

    1)添加合并步骤。点击「+」添加「左右合并」步骤。

    2)添加合并数据。选择需要合并的表「商品销售明细表」内全部字段。

    3)设置合并效果。确认合并表,然后选择合并方式「并集合并」保留所有数据,设置合并表的依据字段「商品编码」。在下方预览区域可看到合并效果。


    说明:

    「左右合并」界面说明。

    2022-02-25_17-10-02.png

    3.3.2 合并第2张表

    设置步骤同上。添加「门店信息维度表」。如下图所示:

    将三张Excel表成功拼成一张宽表后,字段显示杂乱无章,可调整一下数据的显示顺序,修改名称等,使其变的规整。

    3.4 字段设置

    1)添加字段设置步骤。点击「+」继续添加步骤,选择「字段设置」。

    2)调整字段位置。例如,数据目前是杂乱呈现,可以调整一下位置,按照不同的字段类型、并优先显示「省份」、「城市」字段展示数据,让表格更清晰。


    说明:

    字段设置支持,删除字段,修改字段类型,重命名字段名,调整字段显示顺序。在右侧查看修改效果。

    在制作组件的时候,只有「日期」和「文本」类型的字段可以作为维度,进行分析。数值字段只能作为指标展示分析的结果值。若在仪表板发现维度不能拖入所需字段,可返回自助数据集进行,详情可见 2.3 节。

    2021-09-30_14-35-59.png

    3.5 过滤数据

    我们发现合并表后,出现了一个一条多余的数据,这时候我们可以通过添加过滤条件,去除掉它。

    2021-09-30_16-18-54.png

    1)首先,添加过滤步骤,点击「+>过滤」;

    2)然后,添加过滤条件,点击「添加条件」选择「省份」字段,过滤掉省份「不属于」空的数据。如下图所示:

    3.6 计算毛利额

    如果我们想对原始数据进行计算,新增一列展示计算结果。可以使用新增列,添加运算公式得到结果。

    例如,数据集中有「销售额」和「成本额」,想通过这两个数据相减得出「毛利额」。

    1)可以在左侧点击「+」添加「新增列」步骤实现。

    2)新增列名为「毛利额」,输入公式销售额 - 成本额。完成后点击「确定」。

    注:「销售额」和「成本额」需要从左侧点击添加到公式输入框才能成功计算,「-」在输入公式的上方添加。

    3)完成数据处理后,点击表名重命名为「入门表」,「保存并更新」成功保存新建的「入门表」。


    完成数据处理后,有了质量较好的数据,我们可以开始进行「创建组件和分析数据」的学习。

    2022-02-25_17-53-00.png

    4. 学习成果检验

    这边布置了一个线上作业,希望大家学完后,可以做下这套试卷,检验下自己的学习成果,查缺补漏:基础入门习题02


    附件列表


    主题: 快速入门
    • 有帮助
    • 没帮助
    • 只是浏览

    售前咨询电话

    400-811-8890转1

    在线技术支持

    在线QQ:800049425

    热线电话:400-811-8890转2

    总裁办24H投诉

    热线电话:173-1278-1526

    文 档反 馈

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭