配置Hadoop Hive(HDFS)数据源 FineReport帮助文档|报表开发|报表使用|学习教程

历史版本7 :配置Hadoop Hive(HDFS)数据源返回文档

编辑时间:01-16 15:48 历史版本: 最新历史版本上一篇历史版本下一篇历史版本 内容长度:7701 图片数:7目录数:5 修改原因:调整页面

1. 概述编辑

FineDataLink 版本	功能说明
4.0.11	支持使用Hadoop Hive (HDFS)写入数据

FineDataLink 支持读取Hadoop Hive 中的数据进行数据处理，但是直接通过Hive、Impala的接口写入数据性能不佳，因此 FDL 提供了Hive(HDFS) 写入数据。

本文将介绍如何连接 Hadoop Hive (HDFS)数据源。

注：由于Hive底层存储（HDFS）的限制，数据同步中不支持选择比对字段；不支持比对删除。

下载驱动，并将其上传至 FineDataLink，如何上传可参见：驱动管理 2.1 节

注：在上传驱动包时，需要解压下面的「日志jar」文件，和驱动一起上传至 FineDataLink。

支持的数据库版本	驱动包下载	日志jar下载
hive_1.1	Hive1.1.zip	日志jar.rar
Hadoop_Hive_1.2；hive2.3； hive2.1.2；hive2.1.1	Hadoop Hive.rar	日志jar.rar

在连接数据库之前，请收集以下信息：

1）以管理员身份登录 FineDataLink ，点击「管理系统>数据连接>数据连接管理」，点击「新建数据连接」，如下图所示：

注：如果非管理员用户想要配置数据连接，需要管理员给其分配管理系统下数据连接节点的权限，具体操作请查看数据连接管理权限

2）找到 Hadoop Hive 数据库，如下图所示：

3）切换驱动为「自定义」选择 2.1 节上传的驱动，并输入 2.2 节收集的连接信息，如下图所示：

Kerberos 认证方式详情可参见：数据连接 kerberos 认证

使用 Kerberos 认证需要注意以下事项：

4）点击「测试连接」，若连接成功则点击「保存」，如下图所示：

可以在数据同步、数据转换中使用数据源进行数据读取和写入。

注：当数据去向为Hive(HDFS)，自动建表时，如未特殊配置则中文的字段会变成问号。

数据连接报错 org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x。

在FDL服务端的catalina.sh 里面指定新增变量声明：export HADOOP_USER_NAME = hdfs，指定连接 HDFS 的用户为 hdfs；

注：可根据实际用户名修改。

在不指定用户的情况下，连接HDFS时默认使用root账号，需要关闭HDFS用户验证，可能会带来安全隐患。因为该方案可让所有用户访问 hdfs，不用进入hdfs用户再执行命令。

注：CDH中没有这个配置需要自己加进去。

步骤如下：

1）找到 hdfs-site.xml 的 HDFS 服务高级配置代码段（安全阀）
2）dfs.permissions.enabled 的值设置为 false，保存更改，重启 hdfs 。