主題模型的合併原理

1. 概述

學習完本篇,你將瞭解主題模型最重要的合併邏輯。也是主題模型差別於左右合併,給我們帶來效率提升的最重要的原理。

在本篇中也引入了左右合併的合併邏輯,與主題模型進行對比,幫助大家更好的理解。

2. 左右合併的合併邏輯

左右合併是行級別的合併,透過共享特定列的值來連結表格。我們來看一下左右合併是怎樣合併資料的。

1) 1 對 1 的合併很簡單,我們只需要將兩張表按「區域」欄位將左右兩張表連接起來。如下圖所示:

2) 那 N 對 1 是如何合併的呢?左側表由於有了「分店」欄位的加入,北京和廣州分別有了兩筆資料。

右表為了能和左表按「區域」進行連接,則需要將北京和廣州的資料也複製成兩筆資料。合併結果中我們可以看到大區經理欄位膨脹了,標黃儲存格就是被複製出來的資料。

維度欄位,比如說上面的「大區經理」被複制後,並不會影響我們的分析。

但若是指標欄位被複制,就會影響我們之後的計算。比如下圖,「銷售目標」欄位為了能夠進行匹配,也進行了複製。

這時候如果我們再對結果表的「銷售目標」列進行合計,會發現求和結果已經是錯誤值了。

總結一下:維度資訊複製不會對結果造成影響,但指標資料被複制,就會造成資料膨脹計算出現問題。

3) 這種指標欄位的複製,在 N 對 N 的時候就帶來了徹底的混亂。

按「區域」欄位進行左右合併,北京欄位被膨脹為 4 行,「銷售額、員工人數」欄位也隨之被複制,合計值得到都是錯誤值。


如此我們總結到:左右合併(類似於 SQL 語句 join)這種行級別的合併,會造成資料複製和膨脹。

3. 主題模型的合併邏輯

那麼主題模型是怎樣一個合併邏輯呢,它為什麼不會產生資料的複製和膨脹?

我們將主題模型的合併邏輯總結為以下兩點:

  • 只讓參與到分析的欄位和聯動欄位參與主題模型的合併

  • 執行先聚合再合併

若是拆分成步驟的話,則會有三個步驟:

① 系統判斷使用者在組件中拖入了哪些欄位,只有拖入的欄位和聯動欄位參與主題模型合併;

② 將資料表先後按「聯動欄位」和「組件中拖入的維度」對表進行聚合

③ 將聚合後得到的表進行合併


例如下面這個案例:

想要看各區域的銷售額是否達成目標,我們在組件中需要使用的欄位就是「區域、銷售額、銷售目標」:

① 系統只取「區域、銷售額、銷售目標」這三個欄位參與主題模型;

② 將建立模型的兩張表按組件中拖入的維度按「區域」進行聚合;

③ 將聚合得到的兩張表按「區域」進行合併,得到結果表;

再來看一個 N對N 的案例:

想要知道各大區經理團隊的人均銷售額,我們在組件中需要使用的欄位就是「大區經理、銷售額、員工人數」

① 系統只取「大區經理、銷售額、員工人數」以及聯動欄位「區域」參與主題模型;

② 將建立模型的兩張表按組件中拖入的維度「大區經理」進行聚合;

③ 將聚合得到的兩張表按聯動欄位「區域」進行合併,得到結果表;

得到結果後,我們在組件中使用 sum_agg(銷售額)/sum_agg(人數) 就可以求得人均銷售額。

4. 多表模型如何處理

如果一個模型中超過了兩張表,那麼先兩兩獲取模型結果,再對模型結果求模型結果。

例如我們想使用「事實表1」和「事實表2」裏面的欄位進行分析,這兩張表如何進行合併呢?

系統會按照主題模型的合併邏輯先讓「事實表1、維度表」「事實表2、維度表」兩兩獲得模型結果,使用得到的模型結果合併成最終我們想要使用的表,方便我們進行分析。

5. 下一篇:主題模型如何保證資料完整

我們都知道左右合併是透過選擇「左合併、右合併、並集合並、交集合並」來確認我們需要保留哪部分資料的。

主題模型卻沒有要我們進行選擇,那它是如何保證資料的完整的呢?

主題模型如何保證資料完整 將給大家進行揭祕。

附件列表


主题: 新增並編輯資料
已经是第一篇
已经是最后一篇
  • 有帮助
  • 没帮助
  • 只是浏览
  • 圖片不清晰
  • 用語看不懂
  • 功能說明看不懂
  • 操作說明太簡單
  • 內容有錯誤
中文(繁體)

滑鼠選中內容,快速回饋問題

滑鼠選中存在疑惑的內容,即可快速回饋問題,我們將會跟進處理。

不再提示

10s後關閉

獲取幫助
線上支援
獲取專業技術支援,快速幫助您解決問題
工作日9:00-12:00,13:30-17:30在线
頁面反饋
針對當前網頁的建議、問題反饋
售前咨詢
業務咨詢
電話:0933-790886或 0989-092892
郵箱:taiwan@fanruan.com
頁面反饋
*問題分類
不能為空
問題描述
0/1000
不能為空

反馈已提交

网络繁忙