缺失值处理

  • 文档创建者:Roxy
  • 历史版本:3
  • 最近更新:Roxy 于 2024-06-06
  • 1. 概述

    数仓需要接收来自不同源的大量数据,数据之间可能存在格式、口径、数值上的差异。

    因此不可避免会出现缺失数据,本文介绍如何对缺失值进行处理。

    示例数据:internet_v.xls

    2. 删除缺失值

    如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。

    例如 internet_v 数据表中,统计日期字段有空值,这些缺失值为无效数据,则可以直接删除。

    在数据转换中新建「DB表输入」,取出internet_v 数据表,如下图所示:

    使用「数据过滤」筛选去掉统计日期为空的字段,如下图所示:

    过滤相当于 SQL 语句:统计日期 is not null 

    3. 填充缺失值

    有时由于缺失值太多,不便于删除,需要填充指定数据。

    比如下表中的总停留时间字段,有很多部分数据为空,此时希望将 Null 值数据填充为 0 。

    则可以使用「新增计算列」,新增一列数据,输入公式IF(ISNULL(总停留时间),0.0,总停留时间),表示如果停留时间为空的话就用 0.0 填充,否则则输出总停留时间,如下图所示:

    注:这里IF 函数后两个参数必须是同一个类型的数据,比如如果数据库中总停留时间为 double 类型,则填充的数据 0 也需要写成 0.0 格式。

    点击数据预览即可看到为空的数据被填充为 0,如下图所示:

    附件列表


    主题: 数据开发-定时任务
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!