1. 概述
在使用左右合并时,可能会出现「重复数据」或者「丢失数据」,本文将介绍详细介绍为什么会产生重复数据或者是丢失数据。
2. 什么是重复数据和丢失数据
2.1 重复数据
重复数据产生的原因:笛卡尔积导致数据膨胀。
1)以下表为例,左表中有一条「ID=B」的数据行,右表中有两条「ID=B」 的数据行。在进行左合并时,右表中每一个「ID=B」的行都要去匹配左表中「ID=B」的行,那么最后的结果就会产生两条「ID=B」的行。如下图所示:
2)同理,右表中「ID=D」的行都要去匹配左表中「ID=D」的行,那么最后的结果就会产生 3X4=12 条「ID=D」的行,如下图所示:
3)那么在合并时,左表中一条「ID=B」的数据行是被重复的数据,非一对一的关系就会匹配多次。因此上述数据左表中有 4 条数据被重复,右表数据有 5 条数据被重复。
2.2 丢失数据
右表中有一条「ID=M」的数据行,在左合并时没有匹配到左表中「ID=M」的数据行,在最后结果中这条数据就会丢失,如下图所示:
2.3 注意事项
若在进行左右合并操作后,数据突然变多了,有以下几种原因:
左表和右表的字段匹配错了,根据本文 2.4 节修改一下合并依据;
两张数据表中的数据行非一对一匹配,产生了重复数据,详情参见本文 3.1.1 节。
3. 查看重复数据&丢失数据
1)左右合并时,页面下方会显示合并后数据总条数,左表重复和丢失的数据条数,右表重复和丢失的数据条数。
2)如果存在重复或丢失的数据,想要查看这些数据的明细。可以点击底部的数字,在弹窗中即可查看明细数据。
3)如果重复或丢失数据较多的话,还支持切换成「数据概览模式」,查看这些数据的汇总和分布情况。
注:当前页面的数据概览视图仅用于查看数据的汇总及分布情况。
4)此外,还支持将丢失或重复的数据创建一张新的分析表,再进一步的分析。如下图所示: