在瞭解主題模型的原理後,有沒有 get 到主題模型的優點了。
本文我們來對主題模型的優勢進行一個總結。
無需要等更新
抽取資料在使用進行左右合併後需要點選「儲存並更新」後才可使用,若表格資料量很大,我們等待它更新完成也需要很長時間。
但主題模型直接建立模型關係後,就可以使用,節省了時間。
操作更簡單,避免選擇困難症
我們在使用左右合併的時候,經常要選擇左合併還是右合併。若我們在不瞭解表的情況下選錯了,可能會導致最後的結果錯誤。
但主題模型無需考慮合併方式,只需建立遠端和選擇匹配欄位即可,系統用更智慧的方式保證資料的完整性。
解決資料膨脹問題
在使用左右合容易引入冗餘資料,導致結果表格中存在重複的資料行,分析時獲得的合計值錯誤。
而使用主題模型時,系統自動先聚合再合併,不會產生資料膨脹的問題。
模型支撐更多的分析場景,無需進行多次資料處理,強化組件之間的關係和聯動
舉個例子,我們給「產品表、客戶表、訂單表、銷售員表」建立好模型關係:
想要分析每個銷售人員的銷售績效。透過模型,直接從「銷售員表」獲取銷售人員的資訊,從「訂單表」獲取每個銷售人員的銷售訂單資料
想要分析客戶在不同產品的購買情況。透過模型,從「客戶表」獲取客戶資訊,從「產品表」和「訂單表」獲取訂單和產品資料。
以上分析如果使用左右合併,那就需要進行多次左右合併操作。
並且還需要擔心是否有資料膨脹問題,若有資料膨脹,直接合併成一張大寬表進行分析可能會給我們帶來麻煩。使用先分組匯總再左右合併的方式可以解決,但合併成多箇中間表分別服務不同的分析組件,這會帶來很多問題:
進行多次分組匯總、左右合併,操作麻煩
破壞表結構,分組匯總會讓資料粒度變粗,無法做多層次分析。例如按「月份」匯總後,就會丟失「天」粒度的資料,不方便之後對「天」進行分析。
割裂組件,用了不同中間表作為資料源的組件之間無法自動建立聯動。而使用同一個主題模型的多個組件之間,系統可以自動給它們建立聯動。
更好的支援 N:N 計算場景
在左右合併時,N:N 場景會產生笛卡爾積,不利於工程的穩定;且資料產生多倍膨脹,容易獲取到錯誤的計算結果。
但主題模型就能很好的處理 N:N 的計算,不過要注意選擇正確的模型結構,詳情請參見:主題模型的官方使用推薦
抽取資料:提高更新效能
主題模型是邏輯連結,透過「程式碼」定義的方式將多個表的資料聯動起來。減少了中間表的產生,節省了儲存空間和更新時間。
直連資料:提高計算效能
在保證分析方便性的前提下,主題模型讓更少的資料參與合併,提高計算效能;
1)只對需要合併的表執行合併
若一個主題模型裏有十張表,系統不會將這十張表都執行合併。相反它會依據使用者拖入組件的維度和指標動態的進行判斷,只合並使用到的表。建立模型後,使用者可以自由使用這十張表裏面的欄位進行分析同時,又可以擁有高效的查詢效能,避免了不必要的資料合併。
2)先聚合再合併
若原始資料表有 1 億行資料,聚合後只有 100 萬行。那麼主題模型這種先聚合再合併的方式能大大減少合併的資料量,顯著提高效能。
支援1端和N端雙向聯動過濾
市面上大多數的國產 BI 產品僅支援 1 端表對 N 端表的聯動過濾,而主題模型可以實現 1 端表和 N 端表的之間雙向聯動。
例如下圖,我們分別用 N 端表製作了「合同類型銷售額」、1 端表製作了「客戶資訊表」。
這個時候,如果我們想查看「購買合同」是哪些客戶購買的,就需要用到 N 端表對 1 端表聯動過濾。點選「購買合同」柱子,過濾出相應的客戶。如下圖所示:
支援計算指標可以複用
FineBI 5.0 中的組件無法複用其他組件的計算欄位,每個組件都需單獨建立;
而 6.0 主題模型的引入實現了計算欄位和參數的複用。即在同一分析主題內的所有組件中,可以直接使用待分析區域定義的計算欄位和參數,無需重複建立,提高效率。
計算欄位可以使用參數
FineBI 5.0 中,計算欄位中不可以使用參數。
FineBI 6.0 的主題模型也對這個問題進行了解決,可以在計算欄位中運用參數。
以下是主題模型的一些常見缺陷和情況,建議使用者在以下情況下避免使用主題模型:
1)無法發佈到公共資料,若需要發佈資料,請選擇左右合併處理多表;
2)雖然建立模型的操作很簡單,但有比較深的理解成本。為避免不當使用,若不夠理解主題模型,建議先使用左右合併。
3)在某些場景下,主題模型的過濾有一定的侷限性。建立一個模型:多張事實表「銷售表、採購表」共享一張維度表「產品表」。
範例資料下載:
如果我們新增過濾組件對「銷量表」進行過濾。過濾組件綁定「銷量表」的「日期」欄位。
當我們過濾出 2022/5/1 的資料時,發現當時只銷售了牛奶。然後我們也發現採購資料表也只剩下了牛奶這個產品,這是為什麼呢?
原來我們在對「銷量表」進行過濾後,會以匹配欄位「產品」產生過濾傳遞。
過濾組件過濾後,銷量表只剩「牛奶」,如此傳遞到「產品表、採購表」,導致我們在查看採購資料的時候,只能看到牛奶資料。
針對這些不足之處,我們會持續努力改進和優化主題模型,以提高其適用性和效能。我們將傾聽使用者的反饋和需求,並致力於進一步研究和開發更先進的技術,以提供更好的多表分析解決方案。同時,我們鼓勵使用者在實際應用中靈活選擇適合自身需求和資料特點的分析方法和工具。
滑鼠選中內容,快速回饋問題
滑鼠選中存在疑惑的內容,即可快速回饋問題,我們將會跟進處理。
不再提示
10s後關閉
反馈已提交
网络繁忙