数据去重

1. 概述

1.1 预期效果

在搭建数据仓库时,可能需要对重复的脏数据进行去重,此时可以使用 SparkSQL 算子中的 GROUP BY 进行处理。

例如:有的订单数据不小心触发了两次,一个订单有两个订单数据,这就形成脏数据,我们可以通过删除重复行功能只保留一行。如下图所示:

1.2 实现思路

使用「Spark SQL」中的 GROUP BY 语法进行去重处理。

2. 操作步骤

示例数据:orderlists.xlsx

进入数据开发,新建一个定时任务。

在定时任务编辑界面新增一个数据转换节点,如下图所示:

进入数据转换节点,新增DB表输入,取出需要去重的数据表,如下图所示:


2)新增Spark SQL ,使用 group by 语法对数据进行去重,如下图所示:

select 
 `customer`,`area` ,`date` , `sales` 
from 
DB表输入
group by  `customer`,`area` ,`date` , `sales` 

注:其中查询的数据表、字段需要根据输入提示手动选择,不能直接输入。

点击数据预览,即可查看到去重后的数据,如下图所示:

然后使用 DB 表输出将去重后的数据输出至指定数据表即可,如下图所示:

附件列表


主题: 数据开发
Previous
Next
  • Helpful
  • Not helpful
  • Only read

滑鼠選中內容,快速回饋問題

滑鼠選中存在疑惑的內容,即可快速回饋問題,我們將會跟進處理。

不再提示

10s後關閉

Get
Help
Online Support
Professional technical support is provided to quickly help you solve problems.
Online support is available from 9:00-12:00 and 13:30-17:30 on weekdays.
Page Feedback
You can provide suggestions and feedback for the current web page.
Pre-Sales Consultation
Business Consultation
Business: international@fanruan.com
Support: support@fanruan.com
Page Feedback
*Problem Type
Cannot be empty
Problem Description
0/1000
Cannot be empty

Submitted successfully

Network busy