目录:
1. 概述编辑
1.1 应用场景
在实际使用数据的过程中经常会有需要将两张表联合在一起形成一张新表使用的情况,
假如有这样两张数据表:
① Table A:记录了学生姓名、英语成绩
② Table B:记录了学生姓名、数学成绩
如果想在一张表中就看到学生的姓名、数学成绩和英语成绩,则可以使用「姓名」字段作为「合并依据」进行左右合并。
1.2 功能简介
九数云支持左合并、右合并、并集合并、交集合并、左差集合并、右差集合并、差集合并、无依据合并。
有合并条件的实现效果如下图所示:
无依据合并,会将当前表和要合并的表通过笛卡尔积的形式将两表合并,右表的每条数据都会跟左表每条数据合并一次,如下图所示:
2. 示例编辑
2.1 创建分析表
1)下载示例数据并上传至九数云,将数据保存项目中,选择数学成绩表作为左表,创建分析表进行合并操作,如下图所示:
2.2 左右合并
1)点击「+>合并表>左右合并」,添加左右合并步骤,如下图所示:
2)当前分析表中使用过的左表会有勾选标识,避免选到重复的表格。我们选择「英语成绩」这张表进行合并,如下图所示:
3)在英语成绩这张表中,选择「姓名」和「英语成绩」这两个字段进行合并,点击「确定」,如下图所示:
4)默认是进行左合并操作,在左上角可以切换合并方式。这样就以「数据成绩表」为左表,左合并了「英语成绩表」,如下图所示:
2.3 修改合并方式
1)在左上角可以手动切换合并方式,如下图所示:
2)也可以单击图形来修改合并方式,如下图所示:
2.4 修改合并依据
若左右两表中有字段名一致,系统会将其自动添加为合并依据,也可以修改合并结果的字段名。
此外,还可以修改合并条件,详情参见参见文档:按条件左右合并
2.5 处理右表数据
如果需要修改右表参与合并的字段,可以点击右表区域的「切换」按钮,重新选择参与计算的字段。也可以直接对右表的数据进行「编辑」。
3. 重复数据&丢失数据编辑
3.1 什么是重复数据和丢失数据
3.1.1 重复数据
重复数据产生的原因:笛卡尔积导致数据膨胀。
1)以下表为例,左表中有一条「ID=B」的数据行,右表中有两条「ID=B」 的数据行。在进行左合并时,右表中每一个「ID=B」的行都要去匹配左表中「ID=B」的行,那么最后的结果就会产生两条「ID=B」的行。如下图所示:
2)同理,右表中「ID=D」的行都要去匹配左表中「ID=D」的行,那么最后的结果就会产生 3X4=12 条「ID=D」的行,如下图所示:
3)那么在合并时,左表中一条「ID=B」的数据行是被重复的数据,非一对一的关系就会匹配多次。因此上述数据左表中有 4 条数据被重复,右表数据有 5 条数据被重复。
3.1.2 丢失数据
右表中有一条「ID=M」的数据行,在左合并时没有匹配到左表中「ID=M」的数据行,在最后结果中这条数据就会丢失,如下图所示:
3.1.3 注意事项
若在进行左右合并操作后,数据突然变多了,有以下几种原因:
左表和右表的字段匹配错了,根据本文 2.4 节修改一下合并依据;
两张数据表中的数据行非一对一匹配,产生了重复数据,详情参见本文 3.1.1 节。
3.2 查看重复数据&丢失数据
1)左右合并时,页面下方会显示合并后数据总条数,左表重复和丢失的数据条数,右表重复和丢失的数据条数。
2)如果存在重复或丢失的数据,想要查看这些数据的明细。可以点击底部的数字,在弹窗中即可查看明细数据。
3)如果重复或丢失数据较多的话,还支持切换成「数据概览模式」,查看这些数据的汇总和分布情况。
注:当前页面的数据概览视图仅用于查看数据的汇总及分布情况。
4)此外,还支持将丢失或重复的数据创建一张新的分析表,再进一步的分析。如下图所示:
4. 推荐表编辑
每个左右合并步骤保存之后,里面的配置会记录下来,后续每次左右合并选表的时候,会从记录里找到匹配度较高的左右合并步骤并进行推荐。
4.1 示例
1)「语文成绩」、「英语成绩」以及「数学成绩」这三张表的字段是类似的,且在之前,已经对「语文成绩」和「英语成绩」这两张表进行过左右合并操作。
2)那么对「数学成绩」再次左右合并时,会推荐「英语成绩」以及「数学成绩」这两张表进行合并,如下图所示: