反饋已提交

網絡繁忙

當前為10.0版本文檔,更多實例內容將在最新幫助文檔中展現,點選跳轉至 最新版幫助文檔

ETL作業介紹

一、概述

  1. 在要進行資料分析和展示前,使用者常常發現要使用的資料散落在各個業務系統的資料庫,並且各系統的資料口徑並不統一、資料質量參差不齊,必須要先進行漫長且頭疼的資料處理。

  2. 針對資料處理的難題,FineReport11.0 中新推出了【ETL作業】功能,從高效專業的資料處理角度出發,幫助企業處理出質量更高、更利於展示與分析的資料。

二、應用場景

1
使用FineReport時可能會面臨的問題及解決方案。

場景提煉

具體場景

ETL作業提供的解決方案

無法跨資料庫取數

報表資料來源多個資料庫,雖然FineReport支援透過儲存格過濾進行關聯,但是影響報表展示速度,同時不支援分組彙總等功能。

使用ETL作業時,可以將需要使用的多種資料來源的資料預先處理好並存儲至目標資料庫,報表對接處理好的資料即可。

 

複雜sql導緻報表開發成本高、取數慢

報表資料集內使用大量複雜sql進行資料處理,sql開發和維護成本都很高,導緻sql取數很慢,影響報表展示速度。

使用ETL作業時,可以將複雜的sql處理邏輯下放至資料庫內,報表資料集內只保留類似select *  from table方式的sql即可,sql邏輯清晰易懂,報表取數也會更加快速。

報表資料集無法被引用或關聯

報表內已有資料集無法被新資料集引用,無法和其他資料集關聯。

可以將多個報表資料集內sql涉及的資料內容,使用ETL作業功能,將資料抽取至目標資料庫,在目標資料庫內進行資料關聯,即可完成本場景。

2
公司内可能面臨的數據底層相關問題及解決方案。
場景提煉
具體場景

搭建數據倉庫/數據中間庫

資料分散/資料孤島

業務資料分散在各類資訊系統中(包括線上、線下等),資料表結構不統一,彙總分析困難。


  • 當公司內使用的業務系統逐漸增加,各業務系統的資料量級越來越大,前述問題開始逐漸出現,此時我們可以使用ETL作業功能搭建資料倉儲/資料中間庫;

  • 資料倉心的3部分是ETL工具、資料庫、數倉建模方法論,目前ETL作業功能可以承擔ETL工具的角色;資料庫方面,我們可以選擇關系資料庫來儲存資料;數倉建模方法論方面,目前我們仍然在沉澱中,有部分初期成果。



資料口徑不統一

欄位命名規範在公司內多個業務系統記憶體在多個口徑,命名不規範和邏輯不統一的欄位容易造成認知歧義。

業務系統資料不支援直接做決策分析

業務資料庫儲存結構不易於資料分析人員理解。

資料質量參差不齊

業務系統在進行資料錄入時,由於業務人員誤操作,造成了資料缺失、資料重複、資料不在合理區間內等資料質量問題。

三、準備工作

1
準備說明。
  1. 目標資料庫用於儲存從源資料庫抽取過來的資料,將散落的資料整合儲存到目標資料庫中。

  2. 所以在使用【ETL作業】處理資料前,使用者需要準備一個資料庫作為目標資料庫。

1.png

2
配置說明。

  1. 當前 ETL作業支援 MySQL、SQLserver、Oracle、PostgreSQL 這 4 種資料庫。具體可參考:資料連結

  2. 註1:由於 ETL作業 涉及從來源資料庫抽取資料至目標資料庫,所以需要指定目標資料庫的字元編碼、解碼格式;

    以Mysql資料庫舉例,我們需要在資料連結的url後增加參,useUnicode=true&characterEncoding=UTF-8,新增參後的url樣式:jdbc:mysql://localhost:3306/prep?useUnicode=true&characterEncoding=UTF-8。如下圖所示。

  3. 註2:因為ETL任務需要讀取目標資料庫表結構,所以除MySQL型別資料庫外,其他三種資料庫均需要指定模式,如下圖所示。

image.png

image (1).png


附件列表


主題: ETL作業(體驗功能)
已經是第一篇
已經是最後一篇
  • 有幫助
  • 沒幫助
  • 只是瀏覽
  • 圖片不清晰
  • 用語看不懂
  • 功能說明看不懂
  • 操作說明太簡單
  • 內容有錯誤

文 檔回 饋

滑鼠選中內容,快速回饋問題

滑鼠選中存在疑惑的內容,即可快速回饋問題,我們將會跟進處理。

不再提示

10s後關閉