重复数据&丢失数据

  • 文档创建者:TW
  • 历史版本:2
  • 最近更新:TW 于 2023-12-27
  • 1. 概述

    在使用左右合并时,可能会出现「重复数据」或者「丢失数据」,本文将介绍详细介绍为什么会产生重复数据或者是丢失数据。

    2. 什么是重复数据和丢失数据

    示例数据:成绩信息.xlsx基本信息.xlsx

    2.1 重复数据

    重复数据产生的原因:笛卡尔积导致数据膨胀。

    1)以下表为例,左表中有一条「ID=B的数据行,右表中有两条「ID=B 的数据行。在进行左合并时,右表中每一个「ID=B」的行都要去匹配左表中「ID=B」的行,那么最后的结果就会产生两条「ID=B」的行。如下图所示:

    9.png

    2)同理,右表中「ID=D」的行都要去匹配左表中「ID=D」的行,那么最后的结果就会产生 3X4=12 条「ID=D」的行,如下图所示:

    10.png

    3)那么在合并时,左表中一条「ID=B」的数据行是被重复的数据,非一对一的关系就会匹配多次。因此上述数据左表中有 4 条数据被重复,右表数据有 5 条数据被重复。

    2.2  丢失数据

    右表中有一条「ID=M」的数据行,在左合并时没有匹配到左表中「ID=M」的数据行,在最后结果中这条数据就会丢失,如下图所示:

    13.png

    2.3  注意事项

    若在进行左右合并操作后,数据突然变多了,有以下几种原因:

    • 左表和右表的字段匹配错了,根据本文 2.4 节修改一下合并依据;

    • 两张数据表中的数据行非一对一匹配,产生了重复数据,详情参见本文 3.1.1 节。

    3. 查看重复数据&丢失数据

    1)左右合并时,页面下方会显示合并后数据总条数,左表重复和丢失的数据条数,右表重复和丢失的数据条数。

    2)如果存在重复或丢失的数据,想要查看这些数据的明细。可以点击底部的数字,在弹窗中即可查看明细数据。

    3)如果重复或丢失数据较多的话,还支持切换成「数据概览模式」,查看这些数据的汇总和分布情况。

    注:当前页面的数据概览视图仅用于查看数据的汇总及分布情况。

    4)此外,还支持将丢失或重复的数据创建一张新的分析表,再进一步的分析。如下图所示:

    附件列表


    主题: 制作分析表
    已经是第一篇
    已经是最后一篇
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!