1. 概述
1.1 版本說明
FineDataLink 版本 | 功能變動 |
---|---|
4.0.17 |
|
1.2 應用場景
在進行定時任務資料開發時,使用者經常需要預覽資料查看任務計算的結果是否正確。
1.3 功能說明
FineDataLink 支援在「資料轉換」的輸入型算子中進行「樣本設定」,即在預覽介面,設定用多少資料去參與運算,便於進行計算後的預覽結果校驗。
FineDataLink 「資料同步」、「參數指派」、「資料轉換」支援預覽資料量預設顯示 1000 行,同時支援顯示欄位資料類型,便於使用者進行資料處理和計算。注:「資料轉換」中只有輸入型算子顯示預覽 1000 行。
提高使用者開發除錯效率,使使用者在設計階段能儘量提早發現資料問題。
2. 樣本設定
範例資料:DEMO_CONTRACT.xlsx、CUSTOMER.xls
使用者需要將檔案資料透過「客戶ID」欄位進行聯動,讓合同資訊帶上客戶資料。
使用檔案輸入進行資料源輸入,然後使用「Spark SQL」進行資料計算,如下圖所示:
由於「CUSTOMER」資料表資料量較大,此時「樣本設定」預設取樣量為「5000」,即預覽介面用5000資料去參與運算。在資料聯動後「CUSTOMER」表中 5000 行之後的資料不參與計算,在資料結果預覽中就不能很好的確認計算是否正確,如下圖所示:
為了避免這種情況,可以選擇「CUSTOMER」檔案輸入算子,點選「樣本設定」,設定取樣量為「全量資料」,即在資料預覽時使用全量資料去進行計算,如下圖所示:
得到計算後的資料預覽結果,看到的是使用全量資料計算後的結果,如下圖所示:
3. 資料預覽
FineDataLink 「資料同步」、「參數指派」、「数据转换」支援預覽資料量預設顯示 1000 行,同時支援顯示欄位資料類型,便於使用者進行資料處理和計算。注:「資料轉換」中只有輸入型算子顯示預覽 1000 行。
從資料庫解析至 FineDataLink 的欄位類型如下所示:
FineDataLink 的欄位類型 | 資料庫的欄位類型 |
---|---|
正文 | varchar |
數值 | int、long、float、double |
時間 | date、timestamp |
其他 | binary、boolean |
4. 資料解析量
在進行任務開發時,資料輸入首先會進行資料解析,解析後的資料根據「樣本設定」量計算後透過資料預覽展示結果。
不同輸入源資料解析量邏輯如下表所示:
場景 | 邏輯 |
---|---|
資料同步\參數指派 | 檔案資料集(解析首行)、API取數解析(解析整段)、MongoDB取數(前100行) |
資料轉換 | 檔案資料集(解析首行)、API取數解析(解析整段)、MongoDB取數(前100行)、檔案輸入(前5000行) JSON解析(解析選擇欄位的首行)、XML解析(解析選擇欄位的首行) |