

1. 概述
1.1 版本
FineDataLink 版本 | 功能變動 |
---|---|
4.0.4.2 | - |
4.0.29 | 建立資料連結時,Hadoop Hive (HDFS)和Hadoop Hive資料源,合併為Hadoop Hive |
4.1.3 | 資料寫入 Hive 資料庫時,支援建立、寫入分割槽表 |
4.1.13.2 |
|
1.2 應用場景
Hadoop 是個很流行的分佈式計算解決方案,Hive 是建立在 Hadoop 上的資料倉儲基礎構架。
FineDataLink 支援連結 Hadoop Hive ,進行定時任務讀寫。
2. 準備工作
2.1 前提條件
詳情請參見:前提條件
2.2 版本和驅動
下載驅動,並將其上傳至 FineDataLink,如何上傳可參見:驅動管理 2.1 節。
支援的資料庫版本 | 驅動包下載 | 日誌jar下載 |
---|---|---|
hive_1.1 | 在上傳驅動包時,需要解壓「日誌jar」檔案和驅動一起上傳至 FineDataLink | |
Hadoop_Hive_1.2;hive2.3;hive2.1.2;hive2.1.1;hive3.3.1 | ||
注:若需要將 Hive 作為寫入資料源時,優先使用該驅動。 |
2.3 收集連結資訊
在連結資料庫之前,請收集以下資訊:
資料庫所在伺服器的 IP 地址和埠號。
資料庫的名稱。
若是帳號密碼認證,需要收集帳號和密碼;若是 Kerberos 認證,需要收集使用者端 principal 和 keytab 金鑰路徑。
HDFS 檔案系統地址(IP 地址和埠號)(若只是讀取 Hadoop Hive 資料庫中的資料,無需準備該資訊;若需要向Hadoop Hive 資料庫中寫入資料,為保證寫入效能,需要準備該資訊)。注:同時需要保證 FineDataLink 所在伺服器能存取 HDFS 檔案系統埠,例如 HDFS 檔案系統預設埠為 8020,且伺服器開啟了防火牆,則需要參考下文開放 8020 埠。
Windows 系統開放埠步驟請參見:Windows伺服器設定出入站規則
Linux 系統開放埠步驟請參見:Linux防火墻使用及配置
若需要寫入 Hive 壓縮表,4.1.13.2 及之後的版本可以配置資料連結 URL,範例為:jdbc:hive2://192.168.101.119:10000/hive?hive.exec.compress.output=true;mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec;hive.stats.autogather=false
3. 具體連結步驟
1)管理者登入 FDL 工程,點選「管理系統>資料連結>資料連結管理」,選中某個資料夾後,建立資料連結。如下圖所示:
2)設定資料連結名稱(可同時修改資料連結所在目錄)。如下圖所示:
3)可根據資料源分類、支援形式、適配模組、資料源名稱篩選資料庫。如下圖所示:
4)切換驅動為「自訂」選擇 2.2 節上傳的驅動,並輸入 2.3 節收集的連結資訊。如下圖所示:
設定項介紹如下表所示:
設定項 | 說明 |
---|---|
認證方式 | 認證方式可選擇兩種:帳號密碼、Kerberos Kerberos 認證方式詳情可參見:資料連結 Kerberos 認證 使用 Kerberos 認證需要注意以下事項:
|
HDFS 設定 | 1)若只是讀取 Hadoop Hive 資料庫中的資料,無需配置該設定項 2)若需要向 Hadoop Hive 資料庫中寫入資料,為保證寫入效能,需要配置該設定項 為 Hadoop HDFS檔案系統處於活躍狀態的節點地址 格式為 "hdfs://ip:port"。 例如:hdfs://192.168.101.119:8020 確定 HDFS 地址中 IP 和埠的方法請參見:確認HDFS地址中的IP和埠 4.1.13.2 以及之後的版本支援填寫多個地址,多個地址用逗號隔開,例如:hdfs://ip1:port1,hdfs://ip2:port2,hdfs://ip3:port3 |
HDFS 帳號 | 當Hive的認證方式選擇「帳號密碼」時:
|
5)點選「測試連結」,若連結成功則「儲存」該連結。如下圖所示: