反馈已提交

网络繁忙

ETL作业介绍

  • 文档创建者:Lily.Wang
  • 编辑次数:31次
  • 最近更新:Leo.Tsai 于 2021-11-23
  • 1. 概述

    在数据分析和展示之前,经常要使用的数据散落在各个业务系统的数据库中,并且各系统的数据口径并不统一、数据质量参差不齐,必须要先进行漫长且头疼的数据处理。

    针对上述数据处理难题,我们新推出了「ETL作业」功能,从高效专业的数据处理角度出发,帮助企业处理出质量更高、更利于展示与分析的数据。

    2. ETL作业可以解决的需求场景

    2.1 使用FineReport时可能会面临的问题

    场景提炼
    具体场景ETL作业提供的解决方案
    无法跨数据库取数报表数据来源多个数据库,虽然 FineReport 支持通过单元格过滤进行关联,但是影响报表展示速度,同时不支持分组汇总等功能使用ETL作业时,可以将需要使用的多种数据源的数据预先处理好并存储至目标数据库,报表对接处理好的数据即可
    复杂 SQL 导致报表开发成本高、取数慢报表数据集内使用大量复杂 SQL 进行数据处理,SQL 开发和维护成本都很高,导致 SQL 取数很慢,影响报表展示速度使用ETL作业时,可以将复杂的 SQL 处理逻辑下放至数据库内,报表数据集内只保留类似 select *  from table 方式的 SQL 即可,SQL 逻辑清晰易懂,报表取数也会更加快速
    报表数据集无法被引用或关联报表内已有数据集无法被新数据集引用,无法和其他数据集关联可以将多个报表数据集内 SQL 涉及的数据内容,使用ETL作业功能,将数据抽取至目标数据库,在目标数据库内进行数据关联,即可完成本场景

    2.2 使用FineBI时可能会面临的问题

    场景提炼
    具体场景ETL作业提供的解决方案
    数据层面问题导致业务人员无法快速上手 FineBI
    数据质量低,数据准确性差等数据层问题有可能会导致业务人员无法快速上手 FineBI使用ETL作业搭建数据中间库或数据仓库,将数据层问题再中间库/数仓内解决掉
    FineBI 搭建数仓时可能存在性能或功能问题

    使用 FineBI 搭建数据仓库时,可能会发现自助数据集再数据处理方面需求满足度不高,spider 内数据不支撑输出至数据库;

    因为自助数据集的定位是自助分析,所以数据处理相关功能会侧重易用性而不是灵活性

    使用ETL作业搭建数仓,FineBI 对接处理好的数据即可
    数据仓库的ETL工具无法调度 FineBI 数据更新有数仓的 FineBI 客户可能希望数仓的数据更新后,再调度 FineBI 的数据更新,以保证数据准确性,但是目前二者是割裂的后续ETL作业会支持ETL任务和 FineBI 数据更新的关系依赖

    2.3 公司内可能面临的数据底层相关问题

    场景提炼
    具体场景

    搭建数据仓库/数据中间库

    数据分散/数据孤岛业务数据分散在各类信息系统中(包括线上、线下等),数据表结构不统一,汇总分析困难

    当公司内使用的业务系统逐渐增加,各业务系统的数据量级越来越大,前述问题开始逐渐出现,此时我们可以使用ETL作业功能搭建数据仓库/数据中间库;

    数据仓库中核心的 3 部分是ETL工具、数据库、数仓建模方法论,目前ETL作业功能可以承担ETL工具的角色;数据库方面,我们可以选择关系数据库来存储数据;数仓建模方法论方面,目前我们仍然在沉淀中,有部分初期成果,若贵司对此部分感兴趣,可添加 ETL作业使用前的准备工作 页面中工作人员进行获取

    数据口径不统一字段命名规范在公司内多个业务系统内存在多个口径,命名不规范和逻辑不统一的字段容易造成认知歧义
    业务系统数据不支持直接做决策分析业务数据库存储结构不易于数据分析人员理解
    数据质量参差不齐业务系统在进行数据录入时,由于业务人员误操作,造成了数据缺失、数据重复、数据不在合理区间内等数据质量问题

    3. 客户画像

    3.1 目标客户画像

    目标客户关键特征:数据展示和分析前,需要进一步处理数据。

    • 数据建设不完善:数仓未建设或者建设的不够完善,数据未达到可直接使用的状态。

    • 业务需求个性化:数仓建设主要满足通用的数据使用场景,个性化的业务场景未能满足。

    • 敏捷开发的需求:希望在做报表展示、数据分析之前或做的过程中,能够快速调整用到的数据。

    3.2 目标用户画像

    • 职位定位:需要做数据处理的报表开发工程师,数据处理人员、数仓开发工程师、IT人员。

    • 核心事务:为数据使用准备数据,处理数据。

    4. 其他学习资料

    资料类型
    内容对应链接
    视频课程ETL作业功能场景介绍、基础操作教学ETL作业-功能场景及基础操作
    场景案例使用ETL作业完成的各类数据处理场景参见本ETL作业文档目录下场景案例子目录
    ETL作业 demo 系统最新版本ETL作业的 demo 演示系统,其中包括功能示例、场景示例以及客户案例数据平台演示系统

    5. 更新日志

    插件版本功能变动
    V1.6
      ETL 作业的文件夹和任务分开展示,先展示文件夹再展示任务 详情
    「离线同步」节点新增「自动建表」功能 详情
    「离线同步」节点数据源类型下拉框支持手动编辑 详情
    「离线同步」节点字段映射界面增加刷新按钮 详情
    V1.7  ETL 任务日志新增写入数据行数、更新数据行数 详情
      ETL 任务适配集群 详情
    「离线同步」节点字段映射界面可删除字段 详情
      ETL 任务支持自定义参数功能:「参数设置」 详情

      新增一种节点类型:「参数赋值」 详情

    V1.9
    「离线同步」节点允许指定一个或多个字段作为比对字段,来更新目标表中的数据 详情
    V2.0
    「参数设置」功能允许定义值相同的参数,但是会给出提醒 详情

    「参数赋值」节点的文本型参数也支持多值 详情

    「参数赋值」节点新增参数预览功能 详情
    「参数赋值」节点新增参数值分隔符功能 详情
    「参数赋值」节点允许定义值相同的参数,但是会给出提醒 详情
      ETL 作业新增一种节点类型:「条件分支」详情
    「任务运维」新增功能入口:「资源控制」详情
    V2.1「离线同步」节点字段映射时支持模糊匹配,可选择映射方式 详情
      ETL 作业支持 SQLite 数据源 详情
    V2.2  优化了一些等待场景的加载动效和异常场景的报错提示
    「离线同步」数据来源支持服务器数据集,支持从 CSV、Excel 文件中读取数据 详情
    「离线同步」数据来源支持更多的数据源类型 详情
    「任务运维」的任务管理处新增搜索功能 详情


    附件列表


    主题: 数据准备
    • 有帮助
    • 没帮助
    • 只是浏览

    售前咨询电话

    400-811-8890转1

    在线技术支持

    在线QQ:800049425

    热线电话:400-811-8890转2

    总裁办24H投诉

    热线电话:173-1278-1526

    文 档反 馈

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭