反馈已提交

网络繁忙

数据去重

  • 文档创建者:Roxy
  • 历史版本:1
  • 1. 概述

    1.1 预期效果

    在搭建数据仓库时,可能需要对重复的脏数据进行去重,此时可以使用 SparkSQL 算子中的 GROUP BY 进行处理。

    例如:有的订单数据不小心触发了两次,一个订单有两个订单数据,这就形成脏数据,我们可以通过删除重复行功能只保留一行。如下图所示:

    1.2 实现思路

    使用「Spark SQL」中的 GROUP BY 语法进行去重处理。

    2. 操作步骤

    示例数据:orderlists.xlsx

    进入数据开发,新建一个定时任务。

    在定时任务编辑界面新增一个数据转换节点,如下图所示:

    进入数据转换节点,新增DB表输入,取出需要去重的数据表,如下图所示:


    2)新增Spark SQL ,使用 group by 语法对数据进行去重,如下图所示:

    select 
     `customer`,`area` ,`date` , `sales` 
    from 
    DB表输入
    group by  `customer`,`area` ,`date` , `sales` 

    注:其中查询的数据表、字段需要根据输入提示手动选择,不能直接输入。

    点击数据预览,即可查看到去重后的数据,如下图所示:

    然后使用 DB 表输出将去重后的数据输出至指定数据表即可,如下图所示:

    附件列表


    主题: 数据开发
    已经是第一篇
    已经是最后一篇
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持