1. 概述
大多數時候,我們收集到的原始資料並不能直接拿來分析使用。在分析前進行資料預處理,有助於提升資料分析質量,保障分析結果的準確性和可靠性。
完成「連結到資料」,先自己判斷一下,這樣的資料是否能夠滿足分析訴求。
2. 常見場景
2.1 資料處理
資料存在瑕疵時,需要進行資料處理。例如,資料存在一些需要刪除的不規律資料。如下圖所示:
我們可以在資料準備中建立自助資料集。詳情參見:自助資料集
2.2 如何實現多表合併
將幾張資料不同但存在一定聯絡的表合併為一張寬表,進而實現多表合併。連接表場景分為上下連接、左右連接兩種。
左右連接多表:
上下連接多表:
詳情參考文檔:如何實現拼表
2.3 如何修改欄位型別
例如,想看績效和員工入行年齡之間的關係。製作柱形圖,看不同行齡的績效平均值。
發現行齡是數值欄位,無法拖入維度區域。
需要在自助資料集內,修改數值型別。
詳情參見:欄位設定
3. 範例
範例將介紹,如何將多表拼成一張,並簡單處理一下資料,使其變的有條理。
3.1 上傳原始資料
首先,先上傳原始資料。範例資料下載:入門表.rar
1)資料存放在業務包內。開啟「資料準備>新增業務包」,重命名為「入門業務包」,點選進入業務包下「新增表>Excel資料集」。
2)點選「上傳資料」,按住 shift 鍵,可同時選擇多個表,並一起上傳,點選「確定」。
3)上傳後,點選「確定」。完成資料上傳,並自動更新資料。
完成資料上傳後,「建立自助資料集」將上傳的三個表拼成一張寬表。
3.2 建立自助資料集
1)上傳完原始資料後,選中需要建立自助資料集的表「商品資訊維度表」點選「建立自助資料集」,點選「確定」。
2)資料處理第一步是「選欄位」,選中「資料列表/入門業務包」下的「商品資訊維度表」,全選表內欄位。
說明:
進入自助資料集中,左側區域顯示新增的資料處理步驟。在右側區域顯示「分析步驟」對應的分析區域。
3.3 多表合併
3.3.1 合併第1張表
2)新增合併資料。選擇需要合併的表「商品銷售明細表」內全部欄位。
3)設定合併效果。應答合併表,然後選擇合併方式「並集合並」保留所有資料,設定合併表的依據欄位「商品編碼」。在下方預覽區域可看到合併效果。
說明:
「左右合併」介面說明。
3.3.2 合併第2張表
設定步驟同上。新增「門店資訊維度表」。如下圖所示:
將三張Excel表成功拼成一張寬表後,欄位顯示雜亂無章,可調整一下資料的顯示順序,修改名稱等,使其變的規整。
3.4 欄位設定
1)新增欄位設定步驟。點選「+」繼續新增步驟,選擇「欄位設定」。2)調整欄位位置。例如,資料目前是雜亂呈現,可以調整一下位置,按照不同的欄位型別、並優先顯示「省份」、「城市」欄位展示資料,讓表格更清晰。
說明:
欄位設定支援,刪除欄位,修改欄位型別,重命名欄位名,調整欄位顯示順序。在右側查看修改效果。
在製作組件的時候,只有「日期」和「正文」型別的欄位可以作為維度,進行分析。數值欄位只能作為指標展示分析的結果值。若在儀表板發現維度不能拖入所需欄位,可傳回自助資料集進行,詳情可見 2.3 節。
3.5 過濾資料
我們發現合併表後,出現了一個一條多餘的資料,這時候我們可以透過新增過濾條件,去除掉它。
1)首先,新增過濾步驟,點選「+>過濾」;
2)然後,新增過濾條件,點選「新增條件」選擇「省份」欄位,過濾掉省份「不屬於」空的資料。如下圖所示:
3.6 計算毛利額
如果我們想對原始資料進行計算,新增一欄展示計算結果。可以使用新增列,新增運算公式得到結果。
例如,資料集中有「銷售額」和「成本額」,想透過這兩個資料相減得出「毛利額」。
1)可以在左側點選「+」新增「新增列」步驟實現。
2)新增列名為「毛利額」,輸入公式銷售額 - 成本額。完成後點選「確定」。
注:「銷售額」和「成本額」需要從左側點選新增到公式輸入框才能成功計算,「-」在輸入公式的上方新增。
3)完成資料處理後,點選表名重命名為「入門表」,「儲存並更新」成功儲存建立的「入門表」。
完成資料處理後,有了質量較好的資料,我們可以開始進行「建立組件和分析資料」的學習。