反馈已提交
网络繁忙
本文对数据开发的特有概念进行解释说明,以便用户进行使用。
数据平台:包含数据开发、指标平台等功能,满足用户对数据进行同步、处理、清洗等一系列的需求。
步骤流里的步骤都要是闭环的,每一个步骤都是闭环:
步骤流中涉及到的名称解释如下表所示:
支持多种类型的取数方式:API 取数、SQL 取数、文件取数等。由于无过程中的数据处理,所以不需要内存计算,适用于:
数据表的快速同步
取数时即可完成计算,过程中不需要计算、转换的场景
目标库计算能力较强的场景\数据量非常大的场景,同步到目标数据库,再使用SQL做进一步的开发
本质上是数据流,由于过程中涉及到数据处理,需要依赖内存计算引擎,适用于小数据量(千万及以下)的数据开发,并且计算性能与内存配置有相关性
可以让容器内的节点进行循环执行
通知内容:可自定义
在 步骤流 中,右键点击节点,新增「执行判断」按钮,支持自定义多执行条件的生效方式(全部逻辑与、全部逻辑或),灵活控制任务中节点的依赖关系
数据流里只提供以下三类算子,不应该包含组合型、流程类的算子:
流出型算子举例:DB表输入
过程算子举例:数据关联
流入型算子举例:DB表输出
数据流中涉及到的名称解释如下表所示:
通过字段值对比,对目标表中存在,但是输入源中不存在的数据行进行删除。包含:
物理删除:会实际删除数据
逻辑删除:不删除数据,只做删除标记
支持跨库、跨源的连接
左连接(LEFT JOIN)
右连接(RIGHT JOIN)
内连接(INNER JOIN)
全连接(FULL OUTER JOIN)
这些连接方式与数据库里表连接的方式一致,通过确定关联字段和关联条件,最后得到匹配连接后的结果集。连接的输入是两个以上,输出只有一个
设置列:选择、删除字段
修改列:修改字段名称、修改字段类型
行转列(又称列透视):敬请期待
列转行(又成逆透视列):将一行多列数据转成多行一列显示。通常将转化后的列名为某一行中某一列的值,来识别原先对应的数据。
获取上游输出的数据,使用Spark SQL对其进行查询和处理,并输出给下游
フィードバック
鼠标选中内容,快速反馈问题
鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。
不再提示
10s后关闭