反馈已提交

网络繁忙

数据清洗专题

  • 文档创建者:Roxy
  • 历史版本:3
  • 最近更新:Roxy 于 2024-05-22
  • 1. 概述

    在使用 FineDataLink 「数据开发」搭建数仓或者进行数据处理时,经常需要进行数据的清洗、处理、计算等,FineDataLink 提供了多种可视化算子,用户无需编写复杂的 SQL 语句即可快速便捷的进行数据处理,提高开发效率。

    本文将全面的介绍使用各种可视化算子,对数据进行快速清洗处理,比 SQL 更快更简便的完成任务开发。

    2. 索引

    序号应用场景功能说明文档
    1多个业务系统的表数据中存在相同字段或相同含义的字段,需要将不同的来源数据上下合并到一个表输出上下合并算子,可对多张表进行上下行合并,输出一张合并表上下合并
    2两张数据表在不同的数据库中,希望能够将两张不同来源库的表进行关联生成新表数据关联可实现异构数据关联数据关联
    3
    • 多个列的表头作为字段值,合并到一个新列中,实现对多种指标的归纳和总结,方便进行分析和展示。

    • 将一维表转成二维表

    列转行

    行转列

    4

    数据解析(JSON、XML格式数据)

    解析 JSON 结构的数据,输出行列格式的数据

    将 XML 格式数据解析为行列格式数据

    JSON解析算子功能说明

    XML解析算子

    5对数据字段类型、名称等进行设置

    「字段设置」算子可对接入数据的字段做以下操作:

    • 删除部分字段。

    • 字段重命名。

    • 修改字段类型。

    字段设置
    6对数据按照需求进行字段拆分
    • 字段值按照特定规则(分隔符或字符数)拆分,拆分后的结果形成新的多列字段和值

    • 按照特定规则(分隔符)拆分,拆分后的结果形成新的一列字段和值

    字段拆列

    字段拆行

    7用户数据存在空值,想过滤掉空值数据。

    过滤指定数据

    数据过滤
    8常用时间数据处理可使用 SparkSQL 算子或者新增列算子实现时间字段的处理

    新增列:常见日期公式

    SparkSQL:SparkSQL日期函数

    9常用文本数据处理可使用 SparkSQL 算子或者新增列算子实现文本字段的处理

    新增列:字符串清洗

    新增列_条件赋值

    新增列_分组赋值

    字符串拼接和截取

    SparkSQL:

    SparkSQL字符串函数

    10

    「编码函数」、「加密函数」、「签名函数」等常用于进行API加密认证取数时的 Token 生成。

    可使用 SparkSQL 算子实现数据加密解密应

    SparkSQL编码、加密、解密函数

    最佳实践:

    API取数-SHA2加密身份验证&按页数取数

    API取数-易流云MD5加密

     


    附件列表


    主题: 数据开发
    已经是第一篇
    已经是最后一篇
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持