1. 概述
1.1 版本
FineBI 版本 | 调整功能 |
---|---|
6.0 | - |
6.0.2 | 直连数据和抽取数据部分计算逻辑统一,详情参见本文第 4 节 |
1.2 应用场景
本文将为用户介绍「抽取数据」和「直连数据」是什么,以及它们之间有什么区别,如何去选择等等。
2. 抽取与直连的介绍
引擎介绍
引擎介绍 | |
---|---|
抽取数据 | 使用抽取数据时, FineBI 将数据库中的数据抽取到 FineBI 中(相当于另存到 FineBI 中),所以数据库中的数据与 FineBI 中的数据不能随时保持同步。需要定期对 FineBI 中的数据进行更新,从而保持和数据库中的数据一致。因为数据需要抽取保存到 FineBI 的引擎中,所以「抽取」版本下,需要用户的本地磁盘拥有足够的空间。 通过缓存数据/构建数据副本的方式,支撑较大数据量的OLAP深度自助分析,加速查询的性能,保障其分析体验,同时尽可能避免对业务数据库的影响。 |
直连数据 | 使用的是直连数据集时,FineBI 直接使用用户的数据库中的数据计算, FineBl 中的数据与数据库中的数据保持同步。 借助客户大数据平台/数仓,满足客户高并发、大数据量前提下的简单自助分析。 |
使用要求
使用要求 | |
---|---|
抽取数据 | 服务器性能满足抽取的相关要求:工程部署推荐环境及配置 |
直连数据 |
|
使用场景
使用场景 | |
---|---|
抽取数据 | 1)千万数据复杂血缘自助分析
2)使用多个数据库中的数据做联合分析 |
直连数据 | 1)大数据量简单自助分析
2)用户量和并发比较高,需要能够线性扩展 3)对于实时性要求较高 4)对于数据安全性要求较高 5)数据量不大,并且觉得抽取比较麻烦 |
直连和抽取对比
对比 | |
---|---|
抽取数据 | 受数据量限制,无法支撑亿级以上数据量 数据需要从数仓、业务库全量抽取到 FineBI 服务器,可能有客户不希望数据再全量抽取一份 |
直连数据 |
|
客户画像
客户画像 | |
---|---|
抽取数据 | 一般适用于小型企业,数据量不大,需要自助分析且预算不高 |
直连数据 | 一般适用于大型企业,自己大数据平台建设完善,比较看重数据安全,不希望数据重新抽取一份,对数据实时性要求高 |
3. 如何选择抽取与直连
注:本节描述的数据量均指结果集数据量,即仪表板中使用的直接表的数据量,而不是指基础表。
3.1 亿级数据量表不多的情况下,统一推荐使用抽取数据
结果集数据量是小数据量(千万级及以下),用 抽取数据
结果集数据量是大数据量(亿级及以下),优先推荐 抽取数据
3.2 亿级数据量表较多的情况下,推荐使用直连数据
结果集数据量在亿级以上,且时效性要求高(小时级的更新),推荐使用 直连数据
3.3 直连数据注意事项
1)如果直连数据库是 OLAP 类型的高性能数据库(如:StarRocks、Doris、Hologres 、Vertica、GaussDB200),可支持简单自助分析。
简单自助分析场景是指:
①自助数据集复杂计算步骤数(左右合并、从其他表添加列、新增汇总列、新增公式列-DEF函数、行转列、列转行的总步骤数)≤2
②限制直连数据集血缘层数上限为 3 层
③如使用主题模型,自助数据集中就不能有复杂计算步骤)
2)如果直连数据库是其他数据库,仅支持自助数据集添加一个复杂计算步骤且血缘上限为 3 层。
4. 组件中抽取与直连的计算逻辑
4.1 相同场景的计算逻辑
计算逻辑 | 抽取 | 直连 |
快速计算过滤对合计值的影响 | 不影响 | 不影响 |
快速计算过滤对其他快速计算指标的影响 | 不影响 | 不影响 |
快速计算过滤对其他快速计算合计的影响 | 不影响 | 不影响 |
维度依据指标过滤/排序 | 依赖合计结果进行过滤/排序 | 依赖合计结果进行过滤/排序 |
交叉表过滤逻辑 | 依据过滤条件正常过滤 | 依据过滤条件正常过滤 |
过滤器的过滤和表头过滤在同一过滤级别下 | 取两者过滤条件的交集 | 取两者过滤条件的交集 |
null 和空字符串的过滤逻辑不同 | 选择 null 或空字符串过滤,把 null 和空字符串全部都过滤掉 | 依据数据库的逻辑进行过滤 若数据库逻辑是空过滤空,null 过滤 null ,则结果与抽取不同 |