1. 概述编辑
1.1 应用场景
在实际使用数据的过程中经常会有需要将两张表联合在一起形成一张新表使用的情况,
假如有这样两张数据表:
① Table A:记录了学生姓名、英语成绩
② Table B:记录了学生姓名、数学成绩
如果想在一张表中就看到学生的姓名、数学成绩和英语成绩,则可以使用「姓名」字段作为「合并依据」进行左右合并。
交集合并、并集合并、左合并以及右合并结果如下:
无依据合并,会将当前表和要合并的表通过笛卡尔积的形式将两表合并,右表的每条数据都会跟左表每条数据合并一次,如下图所示:
1.2 功能简介
选择一张表作为左表新建分析表,选择字段后,新增分析步骤时,选择「左右合并」即可。如下图所示:
2. 操作步骤编辑
2.1 创建分析表
1)下载示例数据并 上传 至九数云,选择数学成绩作为左表,创建分析表进行合并操作,如下图所示:
2.2 选择合并方式
1)选择所有字段参与分析,并点击「+>合并表>左右合并」添加步骤,如下图所示:
2)当前分析表中使用过的左表会有勾选标识,避免选到重复的表格。我们选择「数学成绩」这张表进行合并,如下图所示:
3)默认是进行左合并操作,在左上角可以切换合并方式,如下图所示:
数据左合并、右合并、并集合并、交集合并的结果参见本文 1.2 节中的图片说明,这里不再赘述。
2.3 修改合并依据
若左右两表中有字段名一致,系统会将其自动添加为合并依据。用户可以手动删除或添加合并依据,也可以修改左表和右表字段的对应关系,如下图所示:
2.4 重复数据和丢失数据
左右合并时,页面下方会显示合并后数据总条数,左表重复和丢失的数据条数,右表重复和丢失的数据条数。
如果存在重复或丢失的数据,点击数字后可以查看这些被重复或丢失的数据。点击「创建分析」,还可将丢失或重复的数据创建一张新的分析表进一步分析。如下图所示:
3. 其他功能说明编辑
3.1 什么是重复数据和丢失数据
3.1.1 重复数据
重复数据产生的原因:笛卡尔积导致数据膨胀。
1)以下表为例,左表中有一条「ID=B」的数据行,右表中有两条「ID=B」 的数据行。在进行左合并时,右表中每一个「ID=B」的行都要去匹配左表中「ID=B」的行,那么最后的结果就会产生两条「ID=B」的行。如下图所示:
2)同理,右表中「ID=D」的行都要去匹配左表中「ID=D」的行,那么最后的结果就会产生 3X4=12 条「ID=D」的行,如下图所示:
3)那么在合并时,左表中一条「ID=B」的数据行是被重复的数据,非一对一的关系就会匹配多次。因此上述数据左表中有 4 条数据被重复,右表数据有 5 条数据被重复。
3.1.2 丢失数据
右表中有一条「ID=M」的数据行,在左合并时没有匹配到左表中「ID=M」的数据行,在最后结果中这条数据就会丢失,如下图所示:
3.1.3 注意事项
若在进行左右合并操作后,数据突然变多了,有以下几种原因:
左表和右表的字段匹配错了,根据本文 2.3 节修改一下合并依据;
两张数据表中的数据行非一对一匹配,产生了重复数据,详情参见本文 3.1.1 节。
3.2 修改右表参与合并的字段/编辑右表
如果需要修改右表参与合并的字段,可以点击右表区域的设置按钮,重新选择参与计算的字段,如下图所示:
也可以直接对右表的数据进行编辑,但这个编辑方式会改变右表原始数据,请谨慎操作。
3.3 合并依据字段值为空时匹配优化
作为左右合并依据的字段,如果存在空值行,在合并匹配时仍然可以正常输出结果,效果如下图所示:
3.4 推荐表
每个左右合并步骤保存之后,里面的配置会记录下来,后续每次左右合并选表的时候,会从记录里找到匹配度较高的左右合并步骤并进行推荐。
3.4.1 示例
1)「语文成绩」、「英语成绩」以及「数学成绩」这三张表的字段是类似的,且在之前,已经对「语文成绩」和「英语成绩」这两张表进行过左右合并操作。
2)那么对「数学成绩」再次左右合并时,会推荐「英语成绩」以及「数学成绩」这两张表进行合并,如下图所示: