1. 概述
1.1 应用场景
在进行数据分析时,用户希望能够综合查看数据的全貌,包括是否存在重复数据、错误值或者空值等情况。同时,还需要关注数据的分布情况,例如某个字段的最大值、最小值等。通过对数据的质量校验,可以快速发现问题并及时进行调整,以优化整个分析过程。
1.2 功能简介
在分析表中支持切换查看「数据明细」和「数据概览」。
数据明细视图:查看数据的明细情况
数据概览视图:查看数据的汇总和分布情况,比如是否存在重复数据、错误值等;查看某个字段的最大值、最小值等。
2. 数据概览视图
2.1 数据概览视图入口
1)在分析表中,有两种视图:数据明细视图、数据概览视图。点击即可切换到对应的视图中,如下图所示:
2)数据概览视图分为上下两部分,数据汇总区域、数据分布区域。如下图所示:
2.2 数据汇总区域
数据汇总区域展示了每个字段的汇总情况,例如去重记录数、空值、错误值、重复值,对于数值字段,还支持查看求和、平均值、最大值、最小值。如下图所示:
2.3 数据分布区域
在数据分布区域,展示每个字段值的分布情况:
日期字段/文本字段:对字段值进行计数,且降序排列展示;
数值字段:根据字段值划分成五个区间,展示每个区间的计数。
2.4 查看详情
比如某个字段存在错误值,想要查看错误值所在的数据行。或者在上述例子中,想要查看「北京市」的 192 条数据明细。可以使用「查看详情」功能。
1)可以使用「查看详情」功能的范围:
数据汇总区域:错误值、空值;
数据分布区域:每个分布都可以使用「查看详情」。
注:分析步骤禁用状态下,数据概览中无法使用「查看详情」功能。
2)比如想要查看「北京市」的 192 条合同的明细数据。右击「北京市」,点击「查看详情」。如下图所示:
3)那么会自动生成一个禁用筛选步骤,筛选出北京市的相关数据。如下图所示:
2.5 排除
某个字段存在空值,想要直接将空值筛选掉。
1)可以使用「查看详情」功能的范围:
数据汇总区域:错误值、空值;
数据分布区域:每个分布都可以使用「查看详情」。
注:分析步骤禁用状态下,数据概览中无法使用「排除」功能。
2)比如想要筛选掉「合同金额」为空的数据,右击「空值」,点击「排除」。如下图所示:
3)就会自动生成一个筛选步骤,筛选掉「合同金额为空」的数据。如下图所示:
3. 其他说明
当前步骤数据行数超过 5000 行,或者字段列数超过 20 列,在查看数据概览时,需要手动点击查看。如下图所示: