最新历史版本 :数据仓库场景专题 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

数据仓库(DataWarehouse),一般缩写成 DW、DWH。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。从字面上来看,数据仓库就是一个存放数据的仓库,它里面存放了各种各样的数据,而这些数据需要按照一些结构、规则来组织和存放。

使用 FineDataLink 实现可视化多源异构数据整合,高效搭建数仓,通过DAG+低代码开发模式搭建企业级数仓,快速消灭信息孤岛,历史数据全部入仓,支持更多分析场景;同时将计算压力转移到数据仓库,降低对业务系统的压力。

本文将向用户介绍如何使用 FineDataLink 搭建简单的数仓;各种小数仓搭建示例;数仓拉链表的应用场景和实现步骤。

2. 索引编辑

序号应用场景方案说明文档
1对数仓实时性要求不高,定期更新即可;需要大量的数据清洗处理

简单的定时数仓调度任务设计和实现方式

数仓调度场景概述
2数据实时性要求高,ODS 层仅数据迁移,不计算

ODS层使用数据管道实现实时同步

DW 和 ODS 层使用定时任务并设置调度定期更新

实时ODS层数仓搭建方案
3目标表内的所有数据只增不减,对于来源表新增、删除、更新数据进行处理

定时任务中数仓拉链表设计和实现

数仓拉链表(来源表数据大于10000)

数仓拉链表(来源表数据小于10000)

4增量更新过程中,若遇到字段异常值、脏数据等问题,此时目标表中已同步了部分数据,需要将目标表进行数据回滚到此次增量更新前的数据。

目标表中存在标识字段,标识字段有默认值,目标表中存在逻辑主键。

最新同步到目标表中的数据标识值为空,通过标识字段是否有值判断数据的新旧

数据抽取失败后进行数据回滚
5人事小数仓搭建示例展示,提供客户借鉴方案人事系统数据仓库建设