历史版本30 :配置Doris数据源 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

 FineDataLink 版本功能变更
4.0.23定时任务输入输出支持 Doris

管道任务数据输出支持 Doris

4.2.3.1数据开发-定时任务中写入 Doris 时,支持设置行列分隔符

历史版本更新
FineDataLink 版本
功能变更
4.0.27

写入到 Doris 采用 stream load 导入方式,即把数据输出为 CSV 格式,然后再 load 进数据库里

但是如果来源端的字段或字段名里存在换行,将其转化为CSV的时候,会被识别为多个字段或多个值,写入时出现问题,因此将换行符从/n /t 改成\01 \02 字符

4.1数据服务支持 Doris
4.1.3Doris 数据源作为写入端,支持自动建表
4.1.7.22.0 版本之后的 Doris,在管道任务中,支持「同步时标记时间戳」功能
4.1.10.1
  • 管道任务中,Doris 作为目标端时,支持 DDL

  • 定时任务中,Doris 作为目标端&目标表的类型为自动建表时,自动将来源端主键标记为自动建表的主键

  • 定时任务&管道任务中,写入 2.0 及以上版本的 Doris ,若来源端数据存在分隔符,可正常写入

4.1.11.4实时任务支持
4.1.11.5数据同步数据来源的配置方式为「选表」时,目标表为明细模型,选择「自动建表」字段映射同步来源表的非空信息
4.1.14.1数据连接支持配置套接字超时(SocketTimeout 设置项中配置),控制数据库查询时间在一个合理范围内,避免出现无限等待的问题
4.2.1.4数据开发-实时任务中的 DB 表输出功能 中,目标表若为自动建表,表类型支持明细模型;支持仅新增流的无主键插入

1.2 应用场景

FineDataLink 支持连接 Doris,进行定时任务读写管道任务写入作为数据服务数据发布源实时任务写入。

2. 使用限制编辑

1)FineDataLink 支持连接 Doris ,使用限制说明详情参见:Doris数据源使用说明

2)在建立数据连接前,请确保 FineDataLink 能正常访问 Doris 数据库的 FE 和 BE 节点

3)使用 Doris 作为数据写入端时,请确保 FE 节点可以正常访问 BE 节点。原因:

在使用 Doris 进行数据写入时,FineDataLink 通过 HTTP 协议的 Stream Load 方法,将本地文本文件或程序文件导入。

导入命令首先发送至 FE,FE 节点通过 HTTP 重定向将请求转发给 BE 节点,或将导入命令直接提交到指定的 BE 节点。

导入过程的最终结果由协调器 BE 返回。该方法适用于数据量在 1G 至 10G 之间的场景。

4)在 Doris 数据连接中,所使用的数据库用户需具备 admin 权限,以确保 FineDataLink 功能的正常运行。

3. 配置数据连接编辑

3.1 前提条件

详情请参见:前提条件

3.2 版本和驱动

数据库
数据库版本下载驱动
Doris0.14及以上版本FineDataLink已内置相关驱动,无需手动下载安装

3.3 收集连接信息

在连接数据库之前,请收集以下信息:

  • 数据库所在服务器的 IP 地址和端口号。

  • 数据库的名称。

  • 数据库的用户名和密码。

3.4 具体连接步骤

创建数据连接步骤请参见:创建并管理数据源

1730968147380490.png

部分设置项说明如下表所示:

设置项
说明
FE 节点地址

如果 Doris 作为数据写入端时使用,则需要配置 FE 节点

值说明:

填写 IP 地址或主机名以及端口号

多个地址以,隔开

含义:

作为 Stream Load 的连接目标,格式为 "ip:port"

其中 IP 是 FE 节点的IP,port 为 FE 节点的 http_port

例如:192.168.101.71:8030,192.168.101.209:9030

可以填写多个,系统将以轮询方式进行数据写入;填写多个 FE 节点地址时,将选取第一个可用的 FE 节点进行连接

SocketTimeout4.1.14.1 及之后版本新增1)值说明:

配置当前数据连接的套接字超时,单位为秒,默认值为 3600

输入框要求为非负整数,配置为 0 时,视为不设置超时

2)该设置项应用场景:

在网络发生抖动时,可能会出现管道&定时任务发出查询后,无限等待返回数据的问题,用户运维时,看不到报错,但实际任务已不再同步数据

配置该设置项后,将控制查询在一个合理的范围内,达到套接字超时时间后,SQL 语句会自动中断报错,避免出现无限等待的问题

3)该设置项控制的功能范围:

  • 定时任务:对应数据源读写、SQL脚本执行、参数赋值、全局赋值参数

  • 管道任务:对应数据源读写

  • 数据发布:对应数据源查询

  • 库表管理:SQL执行

注:如果数据服务并发量较大,建议调大最大活动连接数,防止因数据服务高并发请求导致数据连接失败

4. 使用数据源编辑

配置好该数据源后,可在以下功能场景中使用,详情请参见:

功能场景
操作指导
定时任务定时任务概述
数据管道数据管道概述
数据服务数据服务概述
实时任务实时任务概述