反馈已提交

网络繁忙

缺失值处理

  • 文档创建者:Roxy
  • 历史版本:2
  • 最近更新:Roxy 于 2023-06-07
  • 1. 概述

    数仓需要接收来自不同源的大量数据,数据之间可能存在格式、口径、数值上的差异。

    因此不可避免会出现缺失数据,本文介绍如何对缺失值进行处理。

    示例数据:internet_v.xls

    2. 删除缺失值

    如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。

    例如 internet_v 数据表中,统计日期字段有空值,这些缺失值为无效数据,则可以直接删除。

    在数据转换中新建「DB表输入」,取出internet_v 数据表,如下图所示:

    使用「数据过滤」筛选去掉统计日期为空的字段,如下图所示:

    过滤相当于 SQL 语句:统计日期 is not null 

    3. 填充缺失值

    有时由于缺失值太多,不便于删除,需要填充指定数据。

    比如下表中的总停留时间字段,有很多部分数据为空,此时希望将 Null 值数据填充为 0 。

    则可以使用「新增计算列」,新增一列数据,输入公式IF(ISNULL(总停留时间),0.0,总停留时间),表示如果停留时间为空的话就用 0.0 填充,否则则输出总停留时间,如下图所示:

    注:这里IF 函数后两个参数必须是同一个类型的数据,比如如果数据库中总停留时间为 double 类型,则填充的数据 0 也需要写成 0.0 格式。

    点击数据预览即可看到为空的数据被填充为 0,如下图所示:

    附件列表


    主题: 数据开发
    已经是第一篇
    已经是最后一篇
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持