历史版本46 :直连数据和抽取数据的区别 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

FineBI 版本
调整功能
6.0-
6.0.2直连数据和抽取数据部分计算逻辑统一,详情参见本文第 4 节

1.2 应用场景

本文将为用户介绍「抽取数据」和「直连数据」是什么,以及它们之间有什么区别,如何去选择等等。

2. 抽取与直连的介绍编辑

引擎介绍


引擎介绍

抽取数据

使用抽取数据时, FineBI 将数据库中的数据抽取到 FineBI 中(相当于另存到 FineBI 中),所以数据库中的数据与 FineBI 中的数据不能随时保持同步。需要定期对 FineBI 中的数据进行更新,从而保持和数据库中的数据一致。因为数据需要抽取保存到 FineBI 的引擎中,所以「抽取」版本下,需要用户的本地磁盘拥有足够的空间。

通过缓存数据/构建数据副本的方式,支撑较大数据量的OLAP深度自助分析,加速查询的性能,保障其分析体验,同时尽可能避免对业务数据库的影响。

直连数据

使用的是直连数据集时,FineBI 直接使用用户的数据库中的数据计算, FineBl 中的数据与数据库中的数据保持同步。

借助客户大数据平台/数仓,满足客户高并发、大数据量前提下的简单自助分析。

使用要求


使用要求

抽取数据

服务器性能满足抽取的相关要求:工程部署推荐环境及配置

直连数据

  • 自有大数据平台,自身数据库可靠性高,性能好

  • 不同数据库类型,分别依照建议的使用模式进行自助分析

  • 可用 Web 集群对接数据库来支撑高并发量

  • 有一定的数据库运维能力

使用场景


使用场景

抽取数据

1)千万数据复杂血缘自助分析

  • 千万数据量(1kw 以下)

  • 数据集复杂

  • 极速分析,所见即所得

2)使用多个数据库中的数据做联合分析

直连数据1)大数据量简单自助分析
  • 亿级以上数据量简单查询(一般不建议使用自助数据集

  • 可视化操作转 SQL

2)用户量和并发比较高,需要能够线性扩展

3)对于实时性要求较高

4)对于数据安全性要求较高

5)数据量不大,并且觉得抽取比较麻烦

直连和抽取对比


对比

抽取数据

受数据量限制,无法完全支撑亿级以上数据量
数据需要从数仓、业务库全量抽取到 FineBI 服务器,可能有客户不希望数据再全量抽取一份
直连数据
  • 实际亿级以上性能表现全部依赖客户数据库、数仓,BI无法做深度调优(往往不是BI专用库,用外部数据库取数查询,会占用数据库资源,性能堪忧

  • 数据实时性依赖于客户数仓数据实时性

  • 自助数据集层数多导致 SQL 复杂,计算时间变长

  • 直连版本不能对跨数据源的数据表做联合分析(建立关联、左右合井、上下合井、其他表添加列、主题模型视图关联)。

客户画像


客户画像

抽取数据

一般适用于小型企业,数据量不大,需要自助分析且预算不高
直连数据

一般适用于大型企业,自己大数据平台建设完善,比较看重数据安全,不希望数据重新抽取一份,对数据实时性要求高

3. 如何选择抽取与直连编辑

3.1 亿级数据量表不多的情况下,统一推荐使用抽取数据

小数据量(千万级及以下),用 抽取数据

大数据量(亿级及以下),优先推荐 抽取数据

3.2 亿级数据量表较多的情况下,推荐使用直连数据

数据量在亿级以上,且时效性要求高(小时级的更新),推荐使用 直连数据

3.3 直连数据注意事项

1)如果直连数据库是 OLAP 类型的高性能数据库(如:StarRocks、Doris、Hologres 、Vertica、GaussDB200),可支持简单自助分析。

简单自助分析场景是指:

①自助数据集复杂计算步骤数(左右合并、从其他表添加列、新增汇总列、新增公式列-DEF函数、行转列、列转行的总步骤数)≤2

②限制直连数据集血缘层数上限为 3 层

③如使用主题模型,自助数据集中就不能有复杂计算步骤)

2)如果直连数据库是其他数据库,仅支持自助数据集添加一个复杂计算步骤且血缘上限为 3 层。

4. 组件中抽取与直连的计算逻辑编辑

4.1 相同场景的计算逻辑

计算逻辑抽取直连
快速计算过滤对合计值的影响不影响
不影响
快速计算对其他快速计算指标的影响不影响不影响
快速计算对其他快速计算合计的影响不影响不影响
维度依据指标过滤/排序,依赖合计行依赖于自动配置的依赖于自动配置的
交叉表过滤逻辑过滤具体各自过滤具体各自
过滤器的过滤和表头过滤的层级被拉平过滤器的过滤先过滤,然后再执行表头上的过滤过滤器的过滤先过滤和行表头上的过滤为同一级
null 和空字符串的过滤逻辑不同选择一个,全部都过滤掉不同的过滤逻辑,空过滤空,null 过滤 null