1. 概述
1.1 版本
FineDataLink版本 | 功能说明 |
---|---|
3.5 | 定时任务中,数据输入适配 Impala |
4.0.1.1 | 定时任务中,数据输出适配 Impala |
4.1 | 数据服务支持 Impala 数据源 |
4.1.8.3 | 适配Impala 3.4、Impala 4.1 |
4.2.0.2 | 数据连接中新增「Kudu设置」:
|
1.2 功能简介
FineDataLink 支持连接 Apache Impala,进行定时任务读取和写入、数据服务发布、数据管道写入
4.2.0.2 及之后版本,数据连接中新增「Kudu设置」:
定时任务支持读写 Kudu 表。
管道任务支持写入 Kudu 表。
数据服务支持发布 Kudu 数据。
2. 准备工作
2.1 前提条件
1)详情请参见:前提条件
2)4.2.0.2 及之后版本,若想读取、写入 Kudu 表,需要使用 1.7.0 及以上版本的 Kudu。
3)定时任务&管道任务中,若想写入 Apache Impala,必须配置「Kudu地址」。
2.2 版本和驱动
下载驱动,并将其上传至 FineDataLink,如何上传可参见:驱动管理 第 2 节
支持的数据库版本 | 驱动包链接 |
---|---|
Impala 2.2 Impala 2.3 Impala 2.8 Impala 2.9 Impala 2.10 Impala 3.4 Impala 4.1 | |
Impala 2.10 kudu1.5 |
ClouderaImpalaJDBC41_2.5.43.rar |
2.3 收集连接信息
在连接数据库之前,请收集以下信息:
数据库所在服务器的 IP 地址和端口号。
数据库的名称。
若是用户名密码认证,需要收集用户名和密码;若是 Kerberos 认证,需要收集客户端 principal 和 keytab 密钥路径。
4.2.0.2 及之后版本,若需要读取或写入 Kudu 表,需要准备 Kudu 地址。
3. 具体连接步骤
1)管理员登录 FDL 工程,点击「管理系统>数据连接>数据连接管理」,选中某个文件夹后,新建数据连接。如下图所示:
2)设置数据连接名称(可同时修改数据连接所在目录)。如下图所示:
3)可根据数据源分类、支持形式、适配模块、数据源名称筛选数据库。如下图所示:
4)驱动切换为「自定义」选择 2.2 节上传的驱动,然后输入 2.3 节的连接信息。如下图所示:
各设置项说明如下表所示:
设置项 | 说明 |
---|---|
认证方式 | 支持 Kerberos 认证,Kerberos 认证方式详情可参见:数据连接 Kerberos 认证 |
Kudu 地址 | 4.2.0.2 及之后版本支持该设置项,定时任务&管道任务中,若想写入 Apache Impala,必须配置「Kudu地址」 指定 Kudu 的 Master 地址,格式为 ip:port,如果有多个 Master,用逗号隔开 |
5)点击「测试连接」,若连接成功则点击「保存」,如下图所示:
4. 使用数据源
4.1 数据开发-定时任务
1)定时任务中,支持读取和写入 Apache Impala,若写入 Apache Impala,需要在数据连接中配置「Kudu地址」。
2)定时任务中写入 Apache Impala 时,目标表若选择「已存在表」,会校验该表是不是 Kudu 表,若不是,不允许写入。
3)定时任务中写入 Apache Impala 时,不支持设置逻辑主键,必须标记物理主键。
4)定时任务中支持读写 Kudu 分区表:
目标表为已存在表时,点击「查看分区键设置」按钮,可查看具体的分区键设置。
目标表为自动建表时,配置物理主键后,支持配置分区键。如下图所示:
各设置项说明如下表所示:
设置项 | 说明 | ||||||
---|---|---|---|---|---|---|---|
分区方式 | 支持两种:范围分区、哈希分区 支持同时指定范围分区和哈希分区,此时用户只需要将两个分区方式都设置即可 | ||||||
分区配置-范围分区 |
| ||||||
分区配置-哈希分区 | 可配置多组哈希分区
|
4.2 管道任务
4.2.0.2 及之后版本,管道任务支持写入 Impala 数据库的 Kudu 表,目标表若选择「已存在表」,会校验该表是不是 Kudu 表,若不是,不允许写入。
管道任务写入 Kudu 表时,不支持无主键同步。
管道任务的目标表为「自动建表」时,支持配置分区键,配置分区键的界面与功能说明与定时任务配置分区键相同,请参见本文 4.1 节内容。
4.3 数据服务
4.2.0.2 及之后版本,数据服务支持发布 Kudu 数据。