历史版本16 :ETL作业介绍 返回文档
编辑时间:
内容长度:图片数:目录数:
修改原因:
1. 概述编辑
在数据分析和展示之前,经常要使用的数据散落在各个业务系统的数据库中,并且各系统的数据口径并不统一、数据质量参差不齐,必须要先进行漫长且头疼的数据处理。
针对上述数据处理难题,我们新推出了「ETL作业」功能,从高效专业的数据处理角度出发,帮助企业处理出质量更高、更利于展示与分析的数据。
2. ETL作业可以解决的需求场景编辑
2.1 使用FineReport时可能会面临的问题
| 场景提炼 | 具体场景 | ETL作业提供的解决方案 |
|---|---|---|
| 无法跨数据库取数 | 报表数据来源多个数据库,虽然FineReport支持通过单元格过滤进行关联,但是影响报表展示速度,同时不支持分组汇总等功能。 | 使用ETL作业时,可以将需要使用的多种数据源的数据预先处理好并存储至目标数据库,报表对接处理好的数据即可。 |
| 复杂sql导致报表开发成本高、取数慢 | 报表数据集内使用大量复杂sql进行数据处理,sql开发和维护成本都很高,导致sql取数很慢,影响报表展示速度。 | 使用ETL作业时,可以将复杂的sql处理逻辑下放至数据库内,报表数据集内只保留类似select * from table方式的sql即可,sql逻辑清晰易懂,报表取数也会更加快速。 |
| 报表数据集无法被引用或关联 | 报表内已有数据集无法被新数据集引用,无法和其他数据集关联。 | 可以将多个报表数据集内sql涉及的数据内容,使用ETL作业功能,将数据抽取至目标数据库,在目标数据库内进行数据关联,即可完成本场景。 |
2.2 使用FineReport时可能会面临的问题
| 场景提炼 | 具体场景 | ETL作业提供的解决方案 |
|---|---|---|
| 数据层面问题导致业务人员无法快速上手FineBI | 数据质量低,数据准确性差等数据层问题有可能会导致业务人员无法快速上手FineBI | 使用ETL作业打击那些数据中间库或数据仓库,将数据层问题在中间库/数仓内解决掉。 |
| FineBI搭建数仓时可能存在性能或功能问题 | 使用FineBI搭建数据仓库时,可能会发现自助数据集在数据处理方面需求满足度不高,spider内数据不支撑输出至数据库; 因为自助数据集的定位是自助分析,所以数据处理相关功能会侧重易用性而不是灵活性。 | 使用ETL作业搭建数仓,FineBI对接处理好的数据即可。 |
| 数据仓库的ETL工具无法调度FineBI数据更新 | 有数仓的FineBI客户可能希望数仓的数据更新后,再调度FineBI的数据更新,以保证数据准确性,但是目前二者是割裂的。 | 后续ETL作业会支持ETL任务和FineBI数据更新的关系依赖。 |
2.3 公司内可能面临的数据底层相关问题
| 场景提炼 | 具体场景 | 搭建数据仓库/数据中间库 |
|---|---|---|
| 数据分散/数据孤岛 | 业务数据分散在各类信息系统中(包括线上、线下等),数据表结构不统一,汇总分析困难。 |
|
| 数据口径不统一 | 字段命名规范在公司内多个业务系统内存在多个口径,命名不规范和逻辑不统一的字段容易造成认知歧义。 | |
| 业务系统数据不支持直接做决策分析 | 业务数据库存储结构不易于数据分析人员理解。 | |
| 数据质量参差不齐 | 业务系统在进行数据录入时,由于业务人员误操作,造成了数据缺失、数据重复、数据不在合理区间内等数据质量问题。 |
3. 客户画像编辑
3.1 目标客户画像
目标客户关键特征:数据展示和分析前,需要进一步处理数据。
数据建设不完善:数仓未建设或者建设的不够完善,数据未达到可直接使用的状态;
业务需求个性化:数仓建设主要满足通用的数据使用场景,个性化的业务场景未能满足;
敏捷开发的需求:希望在做报表展示、数据分析之前或做的过程中,能够快速调整用到的数据。
3.2 目标用户画像
职位定位:需要做数据处理的报表开发工程师,数据处理人员、数仓开发工程师、IT人员
核心事务:为数据使用准备数据,处理数据
4. 其他学习资料编辑
| 资料类型 | 内容 | 对应链接 |
|---|---|---|
| 视频课程 | ETL作业功能场景介绍、基础操作教学。 | ETL作业-功能场景及基础操作 |
| 场景案例 | 使用ETL作业完成的各类数据处理场景。 | 参见本ETL作业文档目录下场景案例子目录 |
| ETL作业demo系统 | 最新版本ETL作业的demo演示系统,其中包括功能示例、场景示例以及客户案例。 | 数据平台演示系统 |
5. 更新日志编辑
| 插件版本 | 功能变动 |
|---|---|
| V1.6 | ETL 作业的文件夹和任务分开展示,先展示文件夹再展示任务 详情 |
| 「离线同步」节点新增「自动建表」功能 详情 | |
| 「离线同步」节点数据源类型下拉框支持手动编辑 详情 | |
| 「离线同步」节点字段映射界面增加刷新按钮 详情 | |
| V1.7 | ETL 任务日志新增写入数据行数、更新数据行数 详情 |
| ETL 任务适配集群 详情 | |
| 「离线同步」节点字段映射界面可删除字段 详情 | |
| ETL 任务支持自定义参数功能:「参数设置」 详情 | |
新增一种节点类型:「参数赋值」 详情 | |
| V1.9 | 「离线同步」节点允许指定一个或多个字段作为比对字段,来更新目标表中的数据 详情 |
| V2.0 | 「参数设置」功能允许定义值相同的参数,但是会给出提醒 详情 |
「参数赋值」节点的文本型参数也支持多值 详情 | |
| 「参数赋值」节点新增参数预览功能 详情 | |
| 「参数赋值」节点新增参数值分隔符功能 详情 | |
| 「参数赋值」节点允许定义值相同的参数,但是会给出提醒 详情 | |
| ETL 作业新增一种节点类型:「条件分支」详情 | |
| 「任务运维」新增功能入口:「资源控制」详情 | |
| V2.1 | 「离线同步」节点字段映射时支持模糊匹配,可选择映射方式 详情 |
| ETL 作业支持 SQLite 数据源 详情 | |
| V2.2 | 优化了一些等待场景的加载动效和异常场景的报错提示 |
| 「离线同步」数据来源支持服务器数据集,支持从 CSV、Excel 文件中读取数据 详情 | |
| 「离线同步」数据来源支持更多的数据源类型 详情 | |
| 「任务运维」的任务管理处新增搜索功能 详情 |

