配置Hadoop Hive(HDFS)数据源- FineDataLink帮助文档

文档创建者：Roxy

历史版本：22

最近更新：Naya 于 2025-07-17

提示: 本文档适用于 4.0.29 之前版本，4.0.29 及之后版本，请查看 配置Hadoop Hive数据源

1. 概述

1.1 版本

FineDataLink 版本	功能说明
4.0.11	支持使用Hadoop Hive (HDFS)写入数据

1.2 应用场景

FineDataLink 支持读取 Hadoop Hive 中的数据进行数据处理，但是直接通过Hive、Impala的接口写入数据性能不佳，因此 FDL 提供了Hive(HDFS) 写入数据。

本文将介绍如何连接 Hadoop Hive (HDFS)数据源。

2. 使用限制

由于 Hive 底层存储（HDFS）的限制，数据同步、数据转换-DB表输出中仅支持追加写入数据，不支持更新数据。

3. 配置数据连接

3.1 前提条件

详情请参见：前提条件

3.2 版本和驱动

下载驱动，并将其上传至 FineDataLink，如何上传可参见：驱动管理

注：在上传驱动包时，需要解压下面的「日志jar」文件，和驱动一起上传至 FineDataLink。

支持的数据库版本	驱动包下载	日志jar下载
hive_1.1	Hive1.1.zip	日志jar.rar
Hadoop_Hive_1.2；hive2.3； hive2.1.2；hive2.1.1	Hadoop Hive.rar	日志jar.rar

3.3 收集连接信息

在连接数据库之前，请收集以下信息：

数据库所在服务器的 IP 地址和端口号；
数据库的名称；
若是用户名密码认证，需要收集用户名和密码；若是 Kerberos 认证，需要收集客户端 principal 和 keytab 密钥路径；
HDFS 文件系统地址（IP 地址和端口号）注：同时需要保证 FineDataLink 所在服务器能访问 HDFS 文件系统端口，例如 HDFS 文件系统默认端口为 8020，且服务器开启了防火墙，则需要参考下文开放 8020 端口。

Windows 系统开放端口步骤请参见：Windows服务器设置出入站规则

Linux 系统开放端口步骤请参见：Linux防火墙使用及配置

3.4 具体连接步骤

创建数据连接步骤请参见：创建并管理数据源

需注意：

配置数据连接时，驱动需要切换为「自定义」，换为本文 3.2 节的驱动。

Kerberos 认证方式详情可参见：数据连接 Kerberos 认证

使用 Kerberos 认证需要注意以下事项：

连接前请检查 /etc/hosts 中的机器名对应 IP 是否为局域网 IP；
检查 /etc/hostname 中机器名设置和 /etc/hosts 中是否配置一致；
检查 FineDataLink 所在机器 hosts 配置的 IP+ 机器名是否正确；
本地连接时需要配置 /etc/hosts 文件，添加远端映射：IP+机器名，例如： 192.168.5.206 centos-phoenix 。

4. 使用数据源

可以在数据同步、数据转换中使用数据源进行数据读取和写入。

注：当数据去向为Hive(HDFS)，自动建表时，如未特殊配置则中文的字段会变成问号。

5. 注意事项

5.1 问题描述

数据连接报错 org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x。

5.2 解决方案

5.2.1 解决方案1

在配置数据连接时，置顶 HDFS 的用户。

5.2.2 解决方案 2

此方案配置可能会失效，建议使用解决方案 1。

Linux 环境：

在FDL服务端的 catalina.sh 里面指定新增变量声明：export HADOOP_USER_NAME = hdfs，指定连接 HDFS 的用户为 hdfs；

注：hdfs 可根据实际用户名修改。

Windows 环境：

在FDL服务端的 catalina.bat 里面指定新增变量声明：HADOOP_USER_NAME=hdfs，指定连接 HDFS 的用户为 hdfs；

注：hdfs 可根据实际用户名修改。

5.2.3 解决方案2（不推荐）

在不指定用户的情况下，连接HDFS时默认使用root账号，需要关闭HDFS用户验证，可能会带来安全隐患。因为该方案可让所有用户访问 hdfs，不用进入hdfs用户再执行命令。

注：CDH中没有这个配置，需要手动加进去。

步骤如下：

1）找到 hdfs-site.xml 的 HDFS 服务高级配置代码段（安全阀）；
2）dfs.permissions.enabled 的值设置为 false，保存更改，重启 hdfs 。

上一篇：配置Hadoop Hive数据源

下一篇：配置Presto数据源

有帮助
没帮助
只是浏览

English

中文（简体）

配置Hadoop Hive(HDFS)数据源