最新历史版本 :缺失值处理 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

数仓需要接收来自不同源的大量数据,数据之间可能存在格式、口径、数值上的差异。

因此不可避免会出现缺失数据,本文介绍如何对缺失值进行处理。

示例数据:internet_v.xls

2. 删除缺失值编辑

如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。

例如 internet_v 数据表中,统计日期字段有空值,这些缺失值为无效数据,则可以直接删除。

在数据转换中新建「DB表输入」,取出internet_v 数据表,如下图所示:

使用「数据过滤」筛选去掉统计日期为空的字段,如下图所示:

过滤相当于 SQL 语句:统计日期 is not null 

3. 填充缺失值编辑

有时由于缺失值太多,不便于删除,需要填充指定数据。

比如下表中的总停留时间字段,有很多部分数据为空,此时希望将 Null 值数据填充为 0 。

则可以使用「新增计算列」,新增一列数据,输入公式IF(ISNULL(总停留时间),0.0,总停留时间),表示如果停留时间为空的话就用 0.0 填充,否则则输出总停留时间,如下图所示:

注:这里IF 函数后两个参数必须是同一个类型的数据,比如如果数据库中总停留时间为 double 类型,则填充的数据 0 也需要写成 0.0 格式。

点击数据预览即可看到为空的数据被填充为 0,如下图所示: