在左右合併中,我們手動選擇 左合併、右合併、並集合並、交集合並 確認保留左右哪張表資料完整。
在 SQL 語句中,我們透過選擇 left join、right join、outer join、inner join 確認保留左右哪張表資料完整。
但在使用主題模型的時候,似乎並不需要我們手動去設定,在避免了我們選擇困難的同時,又不禁懷疑,資料是否還完整呢?我們想要保留的資料還在嗎?
別擔心,主題模型有更智慧的處理方式,無需我們手動確認左合併右合併,本文將給大家介紹。
主題模型處理資料完整性有以下兩個原則:
若組件中使用到了指標欄位,那麼指標所在的那張表完整保留
若組件中只使用了維度欄位,那麼維度所在的表取交集
一起回憶一下左右合併是如何處理資料完整性的。
兩張表都有對方沒有的資料,我們選擇左合併、右合併、交集合並、並集合並保留的資料結果都不一樣。
左右合併的時候,我們獲得的是一張固定的資料表。
在主題模型中,我們希望資料的保留也是動態的。可以根據我們在組件中實際拖入的欄位去確定交集合並還是左合併右合併。
下載範例資料表:資料完整性.xlsx
建立主題,上傳範例資料,並建立「銷售額表」與「大區經理表」的模型關係。
若一個指標欄位被拖入組件中,那麼該指標欄位所在的那張表一定保留完整,這樣的處理方式可以保證我們的資料不丟失。
1)在組件中使用了「銷售額表」裏面的指標欄位「銷售額」,所以組件中「銷售額表」的欄位都保留完整。
2)在組件中使用了「銷售額表」和「大區經理表」的指標欄位,所以組件中這兩張表的欄位都保留完整。
若組件中只有維度欄位,那麼這些維度欄位所在的表取交集。
例如:在組件中只使用了「銷售額表」和「大區經理表」的維度欄位,所以這兩張表取交集。
我們在做左右合併的時候,需要手動選擇左合併、右合併、還是交集合並。
但若是我們對資料表瞭解不夠充分,就容易出現計算問題。
例如下面兩張表面臨的場景:
大區經理表沒有「杭州」:杭州是總部,故沒有設定大區經理
銷售額表沒有「蘇州」:蘇州是新設立的大區,設定了負責人但還未有銷售額資料
在我們不瞭解表的具體情況下,我們可能使用最經常用的左合併。當我們使用合併後的資料表統計員工人數的時候就會發現資料丟失,導致合計值錯誤。
選擇「左合併、右合併、交集合並」都有不同程度的資料丟失。
而使用「主題模型」,完全避免了以上情況:
當我們想統計「銷售額」的時候,銷售額欄位一定是完整的,當我們想統計「員工人數」的時候,員工人數欄位一定是完整的。
不會出現合計值錯誤的情況。
滑鼠選中內容,快速回饋問題
滑鼠選中存在疑惑的內容,即可快速回饋問題,我們將會跟進處理。
不再提示
10s後關閉
反馈已提交
网络繁忙