1. 概述
1)用户在搭建数仓时希望关联 Excel、csv 等文件数据进行业务分析;
2)希望将加工后的数据以文件形式分享使用、以文件形式进行数据归档;
3)文件数据流传输归档:将简道云/API接口中的附件做数据归档,下载附件同步至FTP服务器或本地或其他业务系统(API接口);
本文将全面的介绍各种对接文件数据源的情况,帮助用户更好的解决问题。
2. 索引
序号 | 应用场景 | 方案说明 | 文档 |
---|---|---|---|
1 | 文件数据关联分析,取出至指定数据库 | ||
文件数据为了与其他系统数据联合使用,需要定期同步至指定数据库中。 | 文件输入算子读取单个文件 | ||
FTP 服务器上的文件不定期自动更新,每次通过新建文件更新数据。用户希望自动读取这些文件的所有信息并将信息存储到数据库表中。 | 文件输入 算子+参数实现。 「文件输入」算子每天读取新增的文件数据,将数据同步到数据库表中。 | 基于时间增量读取文件 | |
自动化读取相同类型的文件 | 读取多个同格式的 Excel 和 CSV 文件,并自动汇总到一张数据表 | 批量扫描文件同步数据 | |
希望将离线 XML 文件内的数据解析成二维表并落库。 | 将 XML 文件放置在 FTP 环境或者 FineDataLink 工程的 webroot 下; | 解析XML文件数据 | |
获取目录下符合条件的文件,按写入方式读取入库并记录状态 | 详情请参见右侧文档 | 获取目录下符合条件的文件,按写入方式读取入库并记录状态 | |
2 | 数据处理后输出成文件类型数据 | ||
想要将数据库系统数据处理后输成文件类型数据,便于以文件形式直接查看使用,或者进行数据存档。 | 「文件输出」算子可将处理后的数据输出到指定目标与路径的结构化文件中。 | 文件输出典型示例 | |
在输出文件时,将数据按行数拆分至多个文件,若存在拆分后文件重名或者生成文件过多需要定期清理。 | 使用「shell 脚本」节点和「文件输出」算子:
| 文件拆分:只保留最新拆分的文件 | |
3 | 文件数据流传输归档、移动备份 注:仅对文件流本身做同步,而非取文件内容数据。 | ||
需要将简道云上传的附件根据保密安全规定做归档,同步至FTP服务器/本地/业务管理系统。 | 1)使用简道云输入算子将附件/图片 URL 数据取出,然后使用 json 解析取出附件对应的 URL,并将其设置为参数。 2)循环容器传参 URL 循环取数取出附件,并设置「文件去向」,填写 FTP/SFTP/本地服务器作为上传文件路径,即可将附件上传至指定服务器或者业务系统。 | 简道云附件传输至FTP/SFTP/服务器本地 | |
想要将 FTP/SFTP服务器/本地FineDataLink 工程中的文件输出至指定的业务系统 API 接口。 | 使用「文件传输」节点,设置「文件来源」为FTP/SFTP服务器/本地FineDataLink 工程,「文件去向」为需要写入的指定 API 接口。 | FTP/SFTP/本地服务器附件传输至API接口 | |
用户的业务数据以压缩包的形式每日进行下发,存储在 FTP 文件服务器对应的日期目录下,已经下发完成的压缩包文件会生成同名的 .ok 文件。 用户需要将部分压缩包文件传输到另外一个位置,并进行解压,希望已经传输成功的文件,下次任务运行时不会再重复传输。 | FTP服务器中白名单文件自动传输与解压 |