1. 概述
本文为你说明「数据开发」和「数据管道」的区别,帮助您更快地了解这两个模块。
2. 数据开发与数据管道的区别
区别项 | 定时任务 | 数据管道 |
---|---|---|
应用场景 | 可视化多源异构数据整合,高效搭建数仓,消除数据孤岛、数据口径等问题 | 在数据库数据量大或表结构规范的情况下,实现高性能的「实时数据同步」 |
同步能力 | 单表的定时同步 支持全量+增量同步 | 单表、多表、整库、多对一的实时同步 支持全量+增量同步 |
对数据的处理 | 可使用节点、算子对数据进行清洗 示例参考:最佳实践合集 | 表数据原样同步到目标表中,不支持对数据进行计算处理 示例参考:管道任务示例 |
支持的数据源 | 支持同步的数据类型如下:
| 支持同步的数据类型:数据库数据 |
环境准备 | 不需要特别准备环境 | 需要准备 数据库环境、安装 Kafka(Kafka建议安装在 Linux 中) |
来源端表结构发生变化 | 当进行定时任务开发时,能够提示来源端数据表的 DDL 变化,并且将变化通知给指定用户,用户需手动进行任务调整 | 来源端结构可能因业务调整等原因发生变动,如增删表、增删字段、修改字段名称、修改字段类型等,此时,目标端可以自动同步这些来源端的调整,不需要人为的进行数据表的调整 |
来源端表数据发生变化(增/删/改) | 根据实际场景配置方案,定时同步数据变化 | 实时同步到目标表 |
任务中断后处理机制 | 不支持断点续传 | 若管道任务失败,支持断点续传:若全量同步未完成,会从头全量同步;若全量同步已完成,会从断点开始 断点续传示例: 管道任务在03-21日读取了数据,03-23日停掉,03-27日启动,03-23到03-27日的数据会同步过去 |
注:数据管道和数据开发结合使用的最佳实践请参见:业务系统数据定期归档