六月栖鸦群过山,麦风摇曳熟瓜香。
让我们来看看 FineDataLink 近期上新的文档吧~
上新文档速览:
1)客户案例
文件拆分:只保留最新拆分的文件
API取数:数据每日落库
FineReport接收并使用数据服务发布的数据
JSON解析前过滤出不合法的数据
2)功能使用指导
确认HDFS地址中的IP和端口
数据管道与数据开发区别
参数在FDL中的典型应用场景、如何配置并使用参数
数据管道运维指导
3)问题排查类文档
客户案例
文件拆分:只保留最新拆分的文件
应用场景:
文件输出算子 可将数据按行数拆分至多个文件,但存在以下问题:
场景 | 问题 |
---|---|
每次运行后,被拆分的文件存在重名情况 | 用户多次运行任务,根据数据量不同,被拆分的文件个数可能不同 若用户第一次运行任务,数据被拆分为 5 个文件,第二次运行任务数据被拆分为 3 个文件,上一次被拆分的文件依然存在,影响用户查看文件数据 |
每次运行后,被拆分的文件不存在重名情况 | 若被拆分的文件以日期和时间命名,文件不重名,但随着运行次数增多,生成的拆分文件过多,占用空间 |
本文提供方案解决上述问题。
实现思路:
使用「shell 脚本」节点和「文件输出」算子:
「文件输出」算子将处理后的数据按照行数拆分为多个文件。
「shell 脚本」节点,每次只保留最新的拆分文件,将上一次生成的文件打包压缩备份起来,且只保留近 7 天的压缩文件。
方案效果如下:
每次只保留最新的拆分文件,将上一次生成的文件打包压缩备份起来,且只保留近 7 天的压缩文件。
参考文档:
详情请参见:文件拆分:只保留最新拆分的文件
API取数-数据每日落库
应用场景:
API 接口中每天有 20 多万的数据,若落库到同一张表中,随着时间该表数据不断累积,可能造成查询慢的问题。
希望能按日期分表,每天创建一个新的数据表,保存该天数据。
实现思路:
根据实际需要从 API 接口中取出今天数据,将数据落库到临时表中。
自定义每天的表名,创建表结构,将临时表中的数据写入新创建的表中。
清空临时表,设置调度频率。
方案效果如下:
参考文档:
详情请参见:按日期分表,每天保存当天数据
FineReport接收并使用数据服务发布的数据
应用场景:
用户为保证数据安全,不希望直接将数据仓库账号开发给第三方使用,且拥有 FineDataLink 作为数据中台,想使用「数据服务」功能,统一分发数据给第三方使用,同时想要使用 FineReport 直接接收数据制作看板。
实现思路:
方案一:使用JSON 数据集插件,在报表设计器或决策平台安装插件,接收数据服务 API 数据并制作看板。
方案二:使用数据工厂数据集插件,在报表设计器或决策平台安装插件,接收数据服务 API 数据并制作看板。
参考文档:
详情请参见:FineReport接收并使用数据服务发布的数据
JSON解析前过滤出不合法的数据
应用场景:
大数据量场景下的 json 数据解析,存在问题如下:
如果存在几条不合法的 json 格式数据,解析时会导致整个定时任务运行终止。
json 解析是数据处理过程,定时任务的脏数据容忍没办法排除 json 不合法数据对任务的影响。
用户希望:
过滤出不合法的 json 格式数据,使其不影响定时任务的运行。
大数据量场景下,快速找出不合法的 json 格式数据。
实现思路:
使用 Python 的 is_valid_json 判断 json 是否合法,合法的的 json 参与解析。
参考文档:
详情请参见:JSON解析前过滤出不合法的数据
更多方案
可点击 最佳实践合集 查看。
功能使用指导
确认HDFS地址中的IP和端口
配置 星环 TRANSWARP INCEPTOR 数据源、Hive 数据源 时,存在设置项 HDFS 地址。如下图所示:
本文将介绍确定 HDFS 地址中 IP 和端口的方法。详情请参见:确认HDFS地址中的IP和端口
数据管道与数据开发区别
用户在使用 FDL 时,常常会有以下疑问:
数据管道与数据开发都能同步数据,他俩有啥区别
数据管道和数据开发的使用场景是什么
用户可点击 数据管道与数据开发区别 文档,详细了解这两个模块的区别。
如何使用参数&参数使用场景
用户在了解与使用参数功能时,常常会有以下疑问:
FDL 中,参数能实现哪些场景,应该在哪些场景中使用参数
FDL 中,全局参数、内置参数、任务内参数分别是什么,什么场景下使用
参数赋值节点和参数输出算子有什么区别
FDL 中,怎么定义并使用参数
用户可点击 参数在FDL中的典型应用场景、如何配置并使用参数 了解具体内容。
管道运维指导
管道任务运行后,用户常常有以下问题:
我的工程最多能同时运行多少个管道任务
管道任务手动暂停、异常终止后怎么处理
管道任务运行后,怎么新增/删除表
原任务无法运行,需要重新配置任务,进入编辑任务界面,发现某设置项不能修改怎么办
怎么处理脏数据
怎么查看管道任务日志
用户可点击 数据管道运维指导 了解具体内容。