1. 概述
2. 删除缺失值
如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。
例如 internet_v 数据表中,统计日期字段有空值,这些缺失值为无效数据,则可以直接删除。
在数据转换中新建「DB表输入」,取出internet_v 数据表,如下图所示:
使用「数据过滤」筛选去掉统计日期为空的字段,如下图所示:
过滤相当于 SQL 语句:统计日期 is not null
3. 填充缺失值
有时由于缺失值太多,不便于删除,需要填充指定数据。
比如下表中的总停留时间字段,有很多部分数据为空,此时希望将 Null 值数据填充为 0 。
则可以使用「新增计算列」,新增一列数据,输入公式IF(ISNULL(总停留时间),0.0,总停留时间),表示如果停留时间为空的话就用 0.0 填充,否则则输出总停留时间,如下图所示:
注:这里IF 函数后两个参数必须是同一个类型的数据,比如如果数据库中总停留时间为 double 类型,则填充的数据 0 也需要写成 0.0 格式。
点击数据预览即可看到为空的数据被填充为 0,如下图所示: