配置Hadoop Hive資料源- FineDataLink帮助文档

文檔創建者：Roxy

編輯次數：20

最近更新：Nikozhan 于 2025-03-03

提示:4.0.29 之前版本，為保證寫入效能，建議使用 Hadoop Hive(HDFS) 資料連結。

提示:

4.0.29 及之後版本，若只是讀取 Hadoop Hive 資料庫資料，建立資料連結時，無需配置「HDFS 設定」；若需要寫入資料到 Hadoop Hive 資料庫，需要配置「HDFS 設定」。詳情請參見本文第四章內容。

1. 概述

1.1 版本

FineDataLink 版本	功能變動
4.0.4.2	-
4.0.29	建立資料連結時，Hadoop Hive (HDFS)和Hadoop Hive資料源，合併為Hadoop Hive
4.1.3	資料寫入 Hive 資料庫時，支援建立、寫入分割槽表
4.1.13.2	「HDFS設定」支援配置高可用 HDFS 地址和 HDFS 用戶支援寫入 Hive 壓縮表

1.2 應用場景

Hadoop 是個很流行的分佈式計算解決方案，Hive 是建立在 Hadoop 上的資料倉儲基礎構架。

FineDataLink 支援連結 Hadoop Hive ，進行定時任務讀寫。

2. 準備工作

2.1 前提條件

詳情請參見：前提條件

2.2 版本和驅動

下載驅動，並將其上傳至 FineDataLink，如何上傳可參見：驅動管理 2.1 節。

支援的資料庫版本	驅動包下載	日誌jar下載
hive_1.1	Hive1.1.zip	日志jar.rar 在上傳驅動包時，需要解壓「日誌jar」檔案和驅動一起上傳至 FineDataLink
Hadoop_Hive_1.2；hive2.3；hive2.1.2；hive2.1.1；hive3.3.1	Hadoop Hive.zip
Hadoop Hive.zip 注：若需要將 Hive 作為寫入資料源時，優先使用該驅動。

支援的資料庫版本

驅動包下載

日誌jar下載

hive_1.1

Hive1.1.zip

日志jar.rar

在上傳驅動包時，需要解壓「日誌jar」檔案和驅動一起上傳至 FineDataLink

Hadoop_Hive_1.2；hive2.3；hive2.1.2；hive2.1.1；hive3.3.1

Hadoop Hive.zip

注：若需要將 Hive 作為寫入資料源時，優先使用該驅動。

2.3 收集連結資訊

在連結資料庫之前，請收集以下資訊：

資料庫所在伺服器的 IP 地址和埠號。
資料庫的名稱。
若是帳號密碼認證，需要收集帳號和密碼；若是 Kerberos 認證，需要收集使用者端 principal 和 keytab 金鑰路徑。
HDFS 檔案系統地址（IP 地址和埠號）（若只是讀取 Hadoop Hive 資料庫中的資料，無需準備該資訊；若需要向Hadoop Hive 資料庫中寫入資料，為保證寫入效能，需要準備該資訊）。注：同時需要保證 FineDataLink 所在伺服器能存取 HDFS 檔案系統埠，例如 HDFS 檔案系統預設埠為 8020，且伺服器開啟了防火牆，則需要參考下文開放 8020 埠。

Windows 系統開放埠步驟請參見：Windows伺服器設定出入站規則

Linux 系統開放埠步驟請參見：Linux防火墻使用及配置

若需要寫入 Hive 壓縮表，4.1.13.2 及之後的版本可以配置資料連結 URL，範例為：jdbc:hive2://192.168.101.119:10000/hive?hive.exec.compress.output=true;mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec;hive.stats.autogather=false

3. 具體連結步驟

1）管理者登入 FDL 工程，點選「管理系統>資料連結>資料連結管理」，選中某個資料夾後，建立資料連結。如下圖所示：

2）設定資料連結名稱（可同時修改資料連結所在目錄）。如下圖所示：

3）可根據資料源分類、支援形式、適配模組、資料源名稱篩選資料庫。如下圖所示：

4）切換驅動為「自訂」選擇 2.2 節上傳的驅動，並輸入 2.3 節收集的連結資訊。如下圖所示：

設定項介紹如下表所示：

設定項	說明
認證方式	認證方式可選擇兩種：帳號密碼、Kerberos Kerberos 認證方式詳情可參見：資料連結 Kerberos 認證使用 Kerberos 認證需要注意以下事項：連結前請檢查 /etc/hosts 中的機器名對應 IP 是否為局域網 IP 檢查 /etc/hostname 中機器名設定和 /etc/hosts 中是否配置一緻檢查 FineDataLink 所在機器 hosts 配置的 IP+ 機器名是否正確本地連結時需要配置 /etc/hosts 檔案，新增遠端映射：IP+機器名，例如：192.168.5.206 centos-phoenix
HDFS 設定	1）若只是讀取 Hadoop Hive 資料庫中的資料，無需配置該設定項 2）若需要向 Hadoop Hive 資料庫中寫入資料，為保證寫入效能，需要配置該設定項為 Hadoop HDFS檔案系統處於活躍狀態的節點地址格式為 "hdfs://ip:port"。例如：hdfs://192.168.101.119:8020 確定 HDFS 地址中 IP 和埠的方法請參見：確認HDFS地址中的IP和埠 4.1.13.2 以及之後的版本支援填寫多個地址，多個地址用逗號隔開，例如：hdfs://ip1:port1,hdfs://ip2:port2,hdfs://ip3:port3
HDFS 帳號	當Hive的認證方式選擇「帳號密碼」時：支援配置 HDFS 使用者，填寫後，使用配置的帳號作為連結 HDFS 的使用者如果留空，預設使用啟動 Tomcat 時的伺服器使用者，連結 HDFS 進行讀寫

設定項

說明

認證方式

認證方式可選擇兩種：帳號密碼、Kerberos

Kerberos 認證方式詳情可參見：資料連結 Kerberos 認證

使用 Kerberos 認證需要注意以下事項：

連結前請檢查 /etc/hosts 中的機器名對應 IP 是否為局域網 IP
檢查 /etc/hostname 中機器名設定和 /etc/hosts 中是否配置一緻
檢查 FineDataLink 所在機器 hosts 配置的 IP+ 機器名是否正確
本地連結時需要配置 /etc/hosts 檔案，新增遠端映射：IP+機器名，例如：192.168.5.206 centos-phoenix

HDFS 設定

1）若只是讀取 Hadoop Hive 資料庫中的資料，無需配置該設定項

2）若需要向 Hadoop Hive 資料庫中寫入資料，為保證寫入效能，需要配置該設定項

為 Hadoop HDFS檔案系統處於活躍狀態的節點地址

格式為 "hdfs://ip:port"。

例如：hdfs://192.168.101.119:8020

確定 HDFS 地址中 IP 和埠的方法請參見：確認HDFS地址中的IP和埠

4.1.13.2 以及之後的版本支援填寫多個地址，多個地址用逗號隔開，例如：hdfs://ip1:port1,hdfs://ip2:port2,hdfs://ip3:port3

HDFS 帳號

當Hive的認證方式選擇「帳號密碼」時：

支援配置 HDFS 使用者，填寫後，使用配置的帳號作為連結 HDFS 的使用者
如果留空，預設使用啟動 Tomcat 時的伺服器使用者，連結 HDFS 進行讀寫

5）點選「測試連結」，若連結成功則「儲存」該連結。如下圖所示：

4. 使用資料源

可以在資料同步、資料轉換中使用資料源進行資料讀取和寫入。

4.1.3 及之後版本，資料寫入 Hive 資料庫時，支援建立、寫入分割槽表。詳情請參見：讀取、建立、寫入分割槽表

已經是第一篇

已經是最後一篇

有幫助
沒幫助
只是瀏覽
评价文档，奖励 1 ~ 100 随机 F 豆！

配置Hadoop Hive資料源