配置Hadoop Hive資料源

  • 文档创建者:Roxy
  • 历史版本:20
  • 最近更新:Nikozhan 于 2025-03-03
  • icon提示:4.0.29 之前版本,為保證寫入效能,建議使用 Hadoop Hive(HDFS) 資料連結。
    icon提示:
    4.0.29 及之後版本,若只是讀取 Hadoop Hive 資料庫資料,建立資料連結時,無需配置「HDFS 設定」;若需要寫入資料到 Hadoop Hive 資料庫,需要配置「HDFS 設定」。詳情請參見本文第四章內容。

    1. 概述

    1.1 版本

    FineDataLink 版本
    功能變動
    4.0.4.2-
    4.0.29建立資料連結時,Hadoop Hive (HDFS)Hadoop Hive資料源,合併為Hadoop Hive
    4.1.3

    資料寫入 Hive 資料庫時,支援建立、寫入分割槽

    4.1.13.2
    • 「HDFS設定」支援配置高可用 HDFS 地址和 HDFS 用

    • 支援寫入 Hive 壓縮表

    1.2 應用場景

    Hadoop 是個很流行的分佈式計算解決方案,Hive 是建立在 Hadoop 上的資料倉儲基礎構架。

    FineDataLink 支援連結 Hadoop Hive ,進行定時任務讀寫

    2. 準備工作

    2.1 前提條件

    詳情請參見:前提條件

    2.2 版本和驅動

    下載驅動,並將其上傳至 FineDataLink,如何上傳可參見:驅動管理 2.1 節。

    支援的資料庫版本驅動包下載 日誌jar下載
    hive_1.1

    Hive1.1.zip

    日志jar.rar

    在上傳驅動包時,需要解壓「日誌jar」檔案和驅動一起上傳至 FineDataLink

    Hadoop_Hive_1.2;hive2.3;hive2.1.2;hive2.1.1;hive3.3.1

    Hadoop Hive.zip


    Hadoop Hive.zip

    注:若需要將 Hive 作為寫入資料源時,優先使用該驅動。

    2.3 收集連結資訊

    在連結資料庫之前,請收集以下資訊:

    • 資料庫所在伺服器的 IP 地址和埠號。

    • 資料庫的名稱。

    • 若是帳號密碼認證,需要收集帳號和密碼;若是 Kerberos 認證,需要收集使用者端 principal 和 keytab 金鑰路徑。

    • HDFS 檔案系統地址(IP 地址和埠號)(若只是讀取 Hadoop Hive 資料庫中的資料,無需準備該資訊;若需要向Hadoop Hive 資料庫中寫入資料,為保證寫入效能,需要準備該資訊)。注:同時需要保證 FineDataLink 所在伺服器能存取 HDFS 檔案系統埠,例如 HDFS 檔案系統預設埠為 8020,且伺服器開啟了防火牆,則需要參考下文開放 8020 埠。

    Windows 系統開放埠步驟請參見:Windows伺服器設定出入站規則 

    Linux 系統開放埠步驟請參見:Linux防火墻使用及配置

    • 若需要寫入 Hive 壓縮表,4.1.13.2 及之後的版本可以配置資料連結 URL,範例為:jdbc:hive2://192.168.101.119:10000/hive?hive.exec.compress.output=true;mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec;hive.stats.autogather=false

    3. 具體連結步驟

    1)管理者登入 FDL 工程,點選「管理系統>資料連結>資料連結管理」,選中某個資料夾後,建立資料連結。如下圖所示:


    2)設定資料連結名稱(可同時修改資料連結所在目錄)。如下圖所示:


    3)可根據資料源分類、支援形式、適配模組、資料源名稱篩選資料庫。如下圖所示:


    4)切換驅動為「自訂」選擇 2.2 節上傳的驅動,並輸入 2.3 節收集的連結資訊。如下圖所示:


    設定項介紹如下表所示:

    設定項
    說明
    認證方式

    認證方式可選擇兩種:帳號密碼、Kerberos

    Kerberos 認證方式詳情可參見:資料連結 Kerberos 認證

    使用 Kerberos 認證需要注意以下事項:

    • 連結前請檢查 /etc/hosts 中的機器名對應 IP 是否為局域網 IP

    • 檢查 /etc/hostname 中機器名設定和 /etc/hosts 中是否配置一緻

    • 檢查 FineDataLink 所在機器 hosts 配置的 IP+ 機器名是否正確

    • 本地連結時需要配置 /etc/hosts 檔案,新增遠端映射:IP+機器名,例如:192.168.5.206  centos-phoenix

    HDFS 設定

    1)若只是讀取 Hadoop Hive 資料庫中的資料,無需配置該設定項

    2)若需要向 Hadoop Hive 資料庫中寫入資料,為保證寫入效能,需要配置該設定項

    為 Hadoop HDFS檔案系統處於活躍狀態的節點地址

    格式為 "hdfs://ip:port"。

    例如:hdfs://192.168.101.119:8020

    確定 HDFS 地址中 IP 和埠的方法請參見:確認HDFS地址中的IP和埠

    4.1.13.2 以及之後的版本支援填寫多個地址,多個地址用逗號隔開,例如:hdfs://ip1:port1,hdfs://ip2:port2,hdfs://ip3:port3

    HDFS 帳號當Hive的認證方式選擇「帳號密碼」時:
    • 支援配置 HDFS 使用者,填寫後,使用配置的帳號作為連結 HDFS 的使用者

    • 如果留空,預設使用啟動 Tomcat 時的伺服器使用者,連結 HDFS 進行讀寫

    5)點選「測試連結」,若連結成功則「儲存」該連結。如下圖所示:


    4. 使用資料源

    可以在資料同步資料轉換中使用資料源進行資料讀取和寫入。

    4.1.3 及之後版本,資料寫入 Hive 資料庫時,支援建立、寫入分割槽表。詳情請參見:讀取、建立、寫入分割槽表



    附件列表


    主题: 配置資料源
    已经是第一篇
    已经是最后一篇
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!