1. 概述
1.1 版本
| FineDataLink 版本 | 功能变动 |
|---|---|
| 4.0.14 | - |
| 4.2.10.3 | 原「读取起始行」配置项修改为「读取行范围」,并新增「读取列范围」 |
| 点击展开更多 | ||||||||||
|
1.2 功能简介
本文介绍如何使用「文件输入」算子,读取 CSV 文件。
1.3 注意事项
1)「文件输入」算子前端日志显示的读取量,不包含表头这行数据。
比如 Excel 数据有 100 w行,包括 1 行表头+999999行数据,「文件输入」算子读取后,前端日志会显示读取 999999 行数据。
2)「文件输入」算子中,文件地址、文件夹地址、文件筛选、sheet筛选设置项中支持使用参数,参数使用方法请参见:如何配置并使用参数
1.4 支持的数据源类型
支持读取服务器本地目录、FTP/SFTP、Amazon S3、Server Message Block中的文件数据。详情请参见:前提条件
2. 功能说明
若文件类型选择「CSV」文件,需配置以下内容:
注:此处为广义的 CSV ,指的是包括所有使用逗号、制表符、分号、竖线等任何符号作为分隔符的纯文本表格文件。

文件来源、读取方式、首行为字段名、读取行范围、读取列范围、输出字段介绍请参见 文件输入-读取Excel文件 文档,其余设置项说明见下表:
| 设置项 | 说明 |
|---|---|
| 文件类型 | 文件类型选择 CSV 时,支持读取 csv 文件类型。 例如:支持的文件后缀名:csv、CSV、txt、TXT、tsv、log、dt(csv 和 xml 混合格式)等。 |
| 读取文件后缀 | 当用户选择「文件读取」方式时,新增该选项。说明如下:
4.2.6.1 及之后版本,取消必填校验 |
| 列分隔符 | 根据指定的分隔符,分隔数据为多列。配置的分隔符需要与文件中实际的分隔符保持一致才可正常解析。
分隔符可选择:英文逗号,、制表符\t、英文分号;、管道符|、空格、ASCII字符、自定义
|
| 行分隔符 | 支持指定 CSV 中的行分隔符:
|
| 文本限定符 | 用于标识数据值的开始和结束,以避免数据中包含的特殊字符干扰 CSV 文件的解析。
可选择:双引号、单引号、ASCII 字符(支持的十进制ASCII编码为0~32); 文本限定符、列分隔符、行分隔符彼此不可重复 |
| 编码 | 指定 CSV 文件编码 编码支持选择 GBK、BIG5、ISO-8859-1、UTF-8、UTF-16、EUC_JP、EUC_KR、CP850、GB2312
注:该设置项应该选择正确的文件编码格式,否则,将会导致读取数据乱码 |
读取行范围 读取列范围 | 4.2.10.3 及之前版本,该功能为「读取起始行」,详情请参见:历史版本 4.2.10.3 及之后版本,原「读取起始行」配置项修改为「读取行范围」并新增「读取列范围」,详情请参见本文 3.1 节 |
