历史版本9 :配置Doris資料源 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

版本
功能变动
4.0.23-
4.0.27

写入到 Doris 采用 stream load 导入方式,即把数据输出为 CSV 格式,然后再 load 进数据库里,但是如果来源端的字段或字段名里存在换行,将其转化为CSV的时候,会被识别为多个字段或多个值,写入时出现问题。

因此将换行符从/n /t 改成\01 \02 字符

1.2 应用场景

企业使用 Doris 作为数仓存储,希望 FineDataLink 定时任务的读写和实时管道任务写入支持 Doris 。

2. 约束限制编辑

注:4.0.29 之前版本,集成部署不支持 Doris 数据源作为写入端;4.0.29 及之后版本,集成部署支持 Doris 数据源作为写入端。

2.1 数据开发

  • 当定时任务中「数据去向」选择「追加写入数据」时,主键冲突策略仅支持选择「主键冲突,覆盖目标表的数据」。

2.2 数据管道

  • 数据管道实时数据仅支持同步 Unique 唯一主键表。

  • 数据管道实时数据不支持「同步标记时间戳」功能。

  • 暂时不支持管道的DDL同步。

  • 不支持逻辑主键。

2.3 通用

  • 定时同步和实时同步均不支持目标端「自动建表」,仅支持选择已存在表作为目标端。

  • 如果 Doris 作为数据写入端时使用,FineDataLink 使用 Stream load 导入方式通过 HTTP 协议导入本地文本文件或者程序文件,导入命令到 FE,FE 会通过 HTTP 重定向指令将请求转发给 BE。还可以将导入命令直接提交到指定的 BE。导入的最终结果由协调器 BE 返回。该方式适用数量级在1G~10G的数据。

3. 准备工作编辑

3.1 版本和驱动

 支持的数据库版本驱动包下载
 

0.14及以上版本

 
已内置,无需下载

3.2 收集连接信息

在连接数据库之前,请收集以下信息:

  • 数据库所在服务器的 IP 地址和端口号;

  • 数据库的名称;

  • 数据库的用户名和密码;

4. 具体连接步骤编辑

1)登录 FineDataLink,选择「管理系统>数据连接>数据连接管理」,点击「新建数据连接」,找到 Doris,如下图所示:

注:如果非管理员用户想要配置数据连接,需要管理员给其分配管理系统下数据连接节点的权限,具体操作请查看 数据连接管理权限

2)输入 3.1 节的连接信息。如下图所示:

  • 如果数据服务并发量较大,建议调大最大活动连接数,防止因数据服务高并发请求导致数据连接失败。

  • 如果 Doris 作为数据写入端时使用,则需要配置 FE 节点,配置说明如下:

配置项
提示说明
配置项解释
FE 节点地址填写IP地址或主机名以及端口号,多个地址以,隔开

作为 Stream Load 的连接目标。

格式为 "ip:port"。其中 IP 是 FE 节点 IP,port 是 FE 节点的 http_port。

例如:192.168.101.71:8030,192.168.101.209:9030

可以填写多个,填写多个时数据将以轮询的方式写入。

3)进行测试连接,如下图所示:

5. 使用数据源编辑

可以使用数据源,在数据同步」「参数赋值」「数据转换-DB表输入」「数据转换-DB表输出」、「SQL脚本」中进行 Doris 数据的读取或者写入。

可以在「数据管道」使用数据源进行数据写入,配置数据管道任务