历史版本2 :对接文件数据专题 返回文檔
編輯時間:
內容長度:图片数:目录数:
修改原因:
1. 概述编辑
1)用户在搭建数仓时希望关联 Excel、csv 等文件数据进行业务分析;
2)希望将加工后的数据以文件形式分享使用、以文件形式进行数据归档;
3)文件数据流传输归档:将简道云/API接口中的附件做数据归档,下载附件同步至FTP服务器或本地或其他业务系统(API接口);
本文将全面的介绍各种对接文件数据源的情况,帮助用户更好的解决问题。

2. 索引编辑
| 序号 | 应用场景 | 方案说明 | 文档 |
|---|---|---|---|
| 1 | 文件数据关联分析,取出至指定数据库 | ||
| 文件数据为了与其他系统数据联合使用,需要定期同步至指定数据库中。 | 文件输入算子读取单个文件 | ||
FTP 服务器上的文件不定期自动更新,每次通过新建文件更新数据。用户希望自动读取这些文件的所有信息并将信息存储到数据库表中。 | 文件输入 算子+参数实现。 「文件输入」算子每天读取新增的文件数据,将数据同步到数据库表中。 | 基于时间增量读取文件 | |
| 自动化读取相同类型的文件 | 读取多个同格式的 Excel 和 CSV 文件,并自动汇总到一张数据表 | 批量扫描文件同步数据 | |
| 2 | 数据处理后输出成文件类型数据 | ||
想要将数据库系统数据处理后输成文件类型数据,便于以文件形式直接查看使用,或者进行数据存档。 | 「文件输出」算子可将处理后的数据输出到指定目标与路径的结构化文件中。 | 文件输出典型示例 | |
| 在输出文件时,将数据按行数拆分至多个文件,若存在拆分后文件重名或者生成文件过多需要定期清理。 | 使用「shell 脚本」节点和「文件输出」算子:
| 文件拆分:只保留最新拆分的文件 | |

