历史版本2 :对接文件数据专题 返回文檔
編輯時間: 內容長度:图片数:目录数: 修改原因:

目錄:

1. 概述编辑

1)用户在搭建数仓时希望关联 Excel、csv 等文件数据进行业务分析;

2)希望将加工后的数据以文件形式分享使用、以文件形式进行数据归档;

3)文件数据流传输归档:将简道云/API接口中的附件做数据归档,下载附件同步至FTP服务器或本地或其他业务系统(API接口);

本文将全面的介绍各种对接文件数据源的情况,帮助用户更好的解决问题。


2. 索引编辑

序号
应用场景方案说明文档
1文件数据关联分析,取出至指定数据库
文件数据为了与其他系统数据联合使用,需要定期同步至指定数据库中。文件输入算子读取单个文件

FTP 服务器上的文件不定期自动更新,每次通过新建文件更新数据。用户希望自动读取这些文件的所有信息并将信息存储到数据库表中。

文件输入 算子+参数实现。

「文件输入」算子每天读取新增的文件数据,将数据同步到数据库表中。

基于时间增量读取文件
自动化读取相同类型的文件

读取多个同格式的 Excel 和 CSV 文件,并自动汇总到一张数据表

批量扫描文件同步数据
2数据处理后输出成文件类型数据

想要将数据库系统数据处理后输成文件类型数据,便于以文件形式直接查看使用,或者进行数据存档。

「文件输出」算子可将处理后的数据输出到指定目标与路径的结构化文件中
文件输出典型示例
在输出文件时,将数据按行数拆分至多个文件,若存在拆分后文件重名或者生成文件过多需要定期清理。

使用「shell 脚本」节点和「文件输出」算子:

  • 「文件输出」算子将处理后的数据按照行数拆分为多个文件。

  • 「shell 脚本」节点,每次只保留最新的拆分文件,将上一次生成的文件打包压缩备份起来,且只保留近 7 天的压缩文件。

文件拆分:只保留最新拆分的文件