循环多次读取Linux环境文件同步数据 FineReport帮助文档|报表开发|报表使用|学习教程

最新历史版本 :循环多次读取Linux环境文件同步数据返回文档

编辑时间:08-09 15:26 历史版本: 上一篇历史版本 内容长度:14394 图片数:24目录数:3 修改原因:调整页面

1. 概述
2. 操作步骤
3. 结果展示

1. 概述编辑

1.1 应用场景

应用场景一：

4.0.24 之前版本，用户希望自动化读取相同类型的文件，为企业降本增效。例如：

某国有企业旗下有 100 多家分公司，子公司财务每月需要向总部提交各种财务预算和决算表，如资产负债表、利润表、现金流量表等数据表。总部财务需要手动对相同类型的财务报表进行数据汇总，并将其整理后向领导做出统一汇报。

现存问题：

总部财务手动汇总数据耗时较长，效率低下。
汇总的数据出问题，异常数据无法快速追踪。

注：4.0.24 及之后版本，该场景参考批量扫描文件同步数据方案。

应用场景二：

用户 Windows 系统中有多个相同格式的 Excel 文件，需要读取所有文件数据并进行行转列操作。

由于文件输入算子批量读取文件时，是将所有文件数据上下合并，合并后的数据会存在重复值，行转列时会报错（行转列算子中，要求「待行转列」的字段名称不能重复）。

1.2 实现思路

通过执行 Shell 脚本文件，扫描指定文件夹下的 CSV/Excel 文件，输出包含扫描文件绝对路径信息的文件。
截取输出文件中的绝对路径，获得相对路径，并将相对路径作为参数输出。
使用相对路径循环读取要扫描的文件，可对文件数据进行处理，再输出到数据库表中。
定时扫描文件，将数据汇总到数据库表中。

注1：本文方案支持从 FineDataLink 服务器本地和 FTP/SFTP 服务器上读取 Excel 和 CSV 文件数据。

注2：本文方案使用到 Shell 脚本节点，所以 FDL 工程需要在 Linux 系统下。

1.3 任务展示

FineDataLink 中的数据处理过程，详情参见：https://demo.finedatalink.com/ 「场景案例>数据开发场景>循环多次读取Linux环境文件同步数据」。

2. 操作步骤编辑

本文示例是从 FineDataLink 服务器上，批量读取 CSV 文件数据并汇总到数据库表中。

2.1 场景模拟

某公司每月会定时上传文件到 csv 文件夹中，这些文件数据最终定时手工汇总到数据库中的某张表中，存在效率低下和容易出错的问题。

本文示例中，csv 文件夹包含两个 csv 文件。文件数据如下图所示：

2.2 方案说明

1）使用「Shell 脚本」节点执行 .sh 脚本文件，扫描指定文件夹下的 CSV/Excel 文件，输出包含扫描文件绝对路径信息的文件。

2）使用「Spark SQL」算子截取扫描文件的绝对路径，得到相对路径，「参数输出」算子将相对路径作为参数输出。

3）将待扫描文件的相对路径参数赋值给「循环容器」节点，循环容器节点内使用「文件输入」算子循环读取要扫描的文件，「DB表输出」算子将要扫描的文件数据输出到数据库表中。

4）设置定时调度，定时扫描文件，将数据汇总到数据库表中。

2.3 准备工作

本文使用「Shell 脚本」节点，扫描 FDL 服务器中指定文件夹下的 csv 文件，所以需要做以下准备。

1）由于需要在目标服务器执行指定 Shell 脚本，因此需要首先通过 SSH 远程连接至目标服务器。

因此新建 SSH 协议数据连接，参考：前提条件

2）在 /data/demo_FR/webroot/WEB-INF/assets/local_files 目录下新建 df_files 文件夹，每月将需要扫描的文件上传到 df_files 文件夹中。如下图所示：

注：由于要新建服务器本地目录数据连接，从 FineDataLink 本地服务器上读取 CSV/Excel 文件数据，所以存放待扫描文件的文件夹需要在%FDL%/webroot/WEB-INF/assets/local_files下。

3）新建一个服务器本地目录数据连接，服务器本地目录选择存放 csv 文件夹的路径。

4）本文使用「Shell 脚本」节点，扫描指定文件夹下的 csv 文件，所以需要准备 .sh 文件。

新建 file_search.sh 文件。代码如下所示：

本文示例 file_search.sh 文件：file_search.zip

#!/bin/bash
# 获取输⼊参数
path=$1 # 指定要扫描的文件夹路径
output=$2 # 指定输出文件的路径
# 输出表头
echo "文件名,绝对路径,修改时间" > $output
# 遍历文件夹
for file in $(ls $path)
do
# 获取文件名、绝对路径和修改时间
filename=$(basename $file)
abspath=$(realpath $path/$file)
modtime=$(stat -c %y $path/$file | awk '{print $1,$2}')
# 将文件名、绝对路径和修改时间输出到csv文件
echo "$filename,$abspath,$modtime" >> $output
done
# 输出完成信息
echo "扫描完成！输出文件路径为：$output"

5）将 file_search.sh 文件上传到 csv 文件夹所在的目录中。如下图所示：

2.4 设置 Shell 脚本节点

本节目的：扫描指定文件夹下的 csv 文件，结果输出到 file_list.csv 表中。file_list.csv 表中包含 csv 文件夹下表信息的：文件名、绝对路径、修改时间。

1）新建定时任务，添加「Shell脚本」节点。

2）在「参数列表」中新增两个文本类型的参数。如下表所示：

参数	说明	值
source_folder	指定要扫描的文件夹路径，本文是 csv 文件夹	/data/demo_FR/webroot/WEB-INF/assets/local_files/df_files/csv
target_csv	指定输出文件的路径，file_list1.csv名称可自定义，为自动生成的文件包含 csv 文件夹下表信息的：文件名、绝对路径、修改时间	/data/demo_FR/webroot/WEB-INF/assets/local_files/df_files/file_list.csv

参数

说明

值

source_folder

指定要扫描的文件夹路径，本文是 csv 文件夹

/data/demo_FR/webroot/WEB-INF/assets/local_files/df_files/csv

target_csv

指定输出文件的路径，file_list1.csv名称可自定义，为自动生成的文件

包含 csv 文件夹下表信息的：文件名、绝对路径、修改时间