「實時資料」欄位彙總方式增加「近似去重計數」的功能
注:支援的資料庫版本:CLICKHOUSE、ORACLE(12.1或以上)、SQLSERVER(2019或以上)、PRESTO、REDSHIFT、VERTICA、MAXCOMPUTE。
例如使用者需要將產品名稱相同的資料合併在一起並計算對應的匯款金額,範例效果如下所示:
分組彙總是指對原始資料根據條件將相同的資料先合併到一組,然後按照分組後的資料進行彙總計算。
BI 中透過設定分組欄位和彙總欄位實現。
注:從 2018-11-16 之後的版本,年週粒度的週計算邏輯採用 iso標準的週邏輯 ,每週開始的第一天為週日,每年包含 52 或 53 週,每年的第一週必須包含 1 月 4 日。進而保證每週都有 7 天的資料,更符合業務場景。 週開始的時間可參考 標準參數 的 2.9 節修改。
本例展示每個季度長期合同與短期合同對應合同金額平均值。
1)登入數據決策系統,進入「資料準備>業務包」,點選「新增表>自助資料集」,如下圖所示:
2)進入自助資料集配置介面,從業務包的資料表中選擇需要的欄位,右側預覽中即顯示選擇的欄位,如下圖所示:
注:此處只能選擇已新增並進行資料更新的資料表,未更新的資料表不能用於建立自助資料集。
1)在左側的操作流程中選擇分組彙總,如下圖所示:
2)進入分組彙總配置介面,將「合同簽約時間」和「合同型別」欄位拖入分組欄,如下圖所示:
1)點選欄位「下拉」,對「合同簽約時間」 選擇「年季度」分組方式,如下圖所示:
2)點選欄位「下拉」,對「合同型別」 選擇「自訂」分組方式,如下圖所示:
彈出設定框,點選「新增分組」,修改組名為「長期訂單」,如下圖所示:
選擇「長期協定訂單」和「長期協定」,點選「行動到」,將其行動至「長期訂單」分組下,如下圖所示:
勾選未分組的值分到,輸入分組名為「短期訂單」,點選「確定」,則分組成功,如下圖所示:
分組欄位支援新增「文字欄位」、「數值欄位」、「時間欄位」,預設不填入欄位,均支援重命名、刪除欄位操作。
相同值為一組
自訂分組
相同值為一組即表示按照文字欄位中的相同值分組
自訂分組即表示對文字包含的欄位中自行定義分組
區間分組
相同值為一組即按照數值欄位的相同值為一組
區間分組包含兩種方式:自動和自訂分組。
自動分組系統預設根據最大最小值設定區間間隔,分為 5 組,其中區間間隔的數值也可修改。
自訂分組預設按照自動分組的區間間隔設定分組,區間間隔可以修改。支援新增、修改、刪除分組,同時支援對分組自訂命名和將未定義分組的剩餘值分組到一個自訂命名的分組,且該項預設開啓。
將「總金額」欄位拖入彙總欄,如下圖所示:
點選欄位「下拉」,對「總金額」 選擇「平均」彙總方式,如下圖所示:
彙總欄位支援新增「文字欄位」、「數值欄位」、「時間欄位」,預設不填入欄位,均支援重命名、刪除欄位操作。
去重計數
記錄個數
字串連接
近似去重計數 注:僅「實時資料」支援。
去重計數是指將該欄位中相同的值只統計一次,即統計不同值的個數,可以理解為count(distinct欄位)
記錄個數是指記錄這個欄位一共有多少個,相當於count(*)
字串連接是指按分組欄將該欄位下的資料值進行字串的連接,連接成一個值。
當計算資料非常大時,傳統的精確的去重計數可能算不出來,使用近似的去重計數可以很快計算出結果。
注:計算結果精確度取決於資料庫型別和資料量,理論上資料量越小與去重計數結果差別越小。
求和
求平均
求最大值
求最小值
求方差
求標準差
求中位數 預設為求和
同比/環比
最早時間
最晚時間
當計算資料非常大時,傳統的精確的去重記錄數可能算不出來,使用近似的去重記錄數可以很快計算出結果。
最早時間和最晚時間指的是分組內的最早、最晚時間。
注:「近似去重計數」功能支援的資料庫版本:CLICKHOUSE、ORACLE(12.1或以上)、SQLSERVER(2019或以上)、PRESTO、REDSHIFT、VERTICA、MAXCOMPUTE。當資料庫系統為REDSHIFT時,由於REDSHIFT的限制,只能同時對同一個欄位做需要排序的聚合操作(如求去重計數、中位數、百分位、近似去重計數),同時對2個或以上的欄位做此種聚合操作會發生錯誤。當資料庫系統為VERTICA時,由於VERTICA的限制,只能同時使用(精確)去重計數或近似去重計數中的一個。
分組彙總設定完畢以後點選右上角的儲存按鈕並在更新資料後,在業務包中能看到建立的自助資料集,如下圖所示:
若選擇的分組欄位為數值型別,且數值大小為無窮時,無法選擇區間分組選項,點選區間分組後無反應。如下圖所示: