缺失值處理

  • 文檔創建者:Roxy
  • 編輯次數:4
  • 最近更新:Nikozhan 于 2025-07-08
  • 1. 概述

    數倉需要接收來自不同源的大量資料,資料之間可能存在格式、口徑、數值上的差異。

    因此不可避免會出現缺失資料,本文介紹如何對缺失值進行處理。

    範例資料:

    internet_v.xls

    2. 刪除缺失值

    如果資料缺失問題可以透過簡單的刪除小部分樣本來達到目標,那麼這個方法是最有效的。

    例如 internet_v 資料表中,統計日期欄位有空值,這些缺失值為無效資料,則可以直接刪除。

    在資料轉換中建立「DB表輸入」,取出internet_v 資料表,如下圖所示:

    使用「資料過濾」篩選去掉統計日期為空的欄位,如下圖所示:

    過濾相當於 SQL 語句:統計日期 is not null 

    3. 填充缺失值

    有時由於缺失值太多,不便於刪除,需要填充指定資料。

    比如下表中的總停留時間欄位,有很多部分資料為空,此時希望將 Null 值資料填充為 0 。

    則可以使用「新增計算欄」,新增一欄資料,輸入公式IF(ISNULL(總停留時間),0.0,總停留時間),表示如果停留時間為空的話就用 0.0 填充,否則則匯出總停留時間,如下圖所示:

    注:這裏IF 函式後兩個參數必須是同一個類型的資料,比如如果資料庫中總停留時間為 double 類型,則填充的資料 0 也需要寫成 0.0 格式。

    點選資料預覽即可看到為空的資料被填充為 0,如下圖所示:

    附件列表


    主題: 資料開發-定時任務
    已經是第一篇
    已經是最後一篇
    • 有幫助
    • 沒幫助
    • 只是瀏覽
    • 评价文档,奖励 1 ~ 100 随机 F 豆!