最新历史版本 :三分钟带您了解 FineDataLink 近期上新方案类文档 返回文檔
編輯時間: 內容長度:图片数:目录数: 修改原因:

六月栖鸦群过山,麦风摇曳熟瓜香。

让我们来看看 FineDataLink 近期上新的文档吧~

上新文档速览:

1)客户案例

  • 文件拆分:只保留最新拆分的文件

  • API取数:数据每日落库

  • FineReport接收并使用数据服务发布的数据

  • JSON解析前过滤出不合法的数据

2)功能使用指导

  • 确认HDFS地址中的IP和端口

  • 数据管道与数据开发区别

  • 参数在FDL中的典型应用场景、如何配置并使用参数

  • 数据管道运维指导

3)问题排查类文档

目錄:

客户案例编辑

文件拆分:只保留最新拆分的文件

应用场景:

文件输出算子 可将数据按行数拆分至多个文件,但存在以下问题:

场景
问题
每次运行后,被拆分的文件存在重名情况

用户多次运行任务,根据数据量不同,被拆分的文件个数可能不同

若用户第一次运行任务,数据被拆分为 5 个文件,第二次运行任务数据被拆分为 3 个文件,上一次被拆分的文件依然存在,影响用户查看文件数据

每次运行后,被拆分的文件不存在重名情况

若被拆分的文件以日期和时间命名,文件不重名,但随着运行次数增多,生成的拆分文件过多,占用空间

本文提供方案解决上述问题。

实现思路:

使用「shell 脚本」节点和「文件输出」算子:

  • 「文件输出」算子将处理后的数据按照行数拆分为多个文件。

  • 「shell 脚本」节点,每次只保留最新的拆分文件,将上一次生成的文件打包压缩备份起来,且只保留近 7 天的压缩文件。

方案效果如下:

每次只保留最新的拆分文件,将上一次生成的文件打包压缩备份起来,且只保留近 7 天的压缩文件。

3.png

参考文档:

详情请参见:文件拆分:只保留最新拆分的文件

API取数-数据每日落库

应用场景:

API 接口中每天有 20 多万的数据,若落库到同一张表中,随着时间该表数据不断累积,可能造成查询慢的问题。

希望能按日期分表,每天创建一个新的数据表,保存该天数据。

实现思路:

  • 根据实际需要从 API 接口中取出今天数据,将数据落库到临时表中。

  • 自定义每天的表名,创建表结构,将临时表中的数据写入新创建的表中。

  • 清空临时表,设置调度频率。

方案效果如下:

4.png

参考文档:

详情请参见:按日期分表,每天保存当天数据

FineReport接收并使用数据服务发布的数据

应用场景:

用户为保证数据安全,不希望直接将数据仓库账号开发给第三方使用,且拥有 FineDataLink 作为数据中台,想使用「数据服务」功能,统一分发数据给第三方使用,同时想要使用 FineReport 直接接收数据制作看板。

实现思路:

方案一:使用JSON 数据集插件,在报表设计器或决策平台安装插件,接收数据服务 API 数据并制作看板。

方案二:使用数据工厂数据集插件在报表设计器或决策平台安装插件,接收数据服务 API 数据并制作看板。

参考文档:

详情请参见:FineReport接收并使用数据服务发布的数据

JSON解析前过滤出不合法的数据

应用场景:

大数据量场景下的 json 数据解析,存在问题如下:

  • 如果存在几条不合法的 json 格式数据,解析时会导致整个定时任务运行终止。

  • json 解析是数据处理过程,定时任务的脏数据容忍没办法排除 json 不合法数据对任务的影响。

用户希望:

  • 过滤出不合法的 json 格式数据,使其不影响定时任务的运行。

  • 大数据量场景下,快速找出不合法的 json 格式数据。

实现思路:

使用 Python 的 is_valid_json 判断 json 是否合法,合法的的 json 参与解析。

7.png

参考文档:

详情请参见:JSON解析前过滤出不合法的数据

更多方案

可点击 最佳实践合集 查看。

功能使用指导编辑

确认HDFS地址中的IP和端口

配置 星环 TRANSWARP INCEPTOR 数据源Hive 数据源 时,存在设置项 HDFS 地址。如下图所示:

8.png

本文将介绍确定 HDFS 地址中 IP 和端口的方法。详情请参见:确认HDFS地址中的IP和端口

数据管道与数据开发区别

用户在使用 FDL 时,常常会有以下疑问:

  • 数据管道与数据开发都能同步数据,他俩有啥区别

  • 数据管道和数据开发的使用场景是什么

用户可点击 数据管道与数据开发区别 文档,详细了解这两个模块的区别。

如何使用参数&参数使用场景

用户在了解与使用参数功能时,常常会有以下疑问:

  • FDL 中,参数能实现哪些场景,应该在哪些场景中使用参数

  • FDL 中,全局参数、内置参数、任务内参数分别是什么,什么场景下使用

  • 参数赋值节点和参数输出算子有什么区别

  • FDL 中,怎么定义并使用参数

用户可点击 参数在FDL中的典型应用场景如何配置并使用参数 了解具体内容。

管道运维指导

管道任务运行后,用户常常有以下问题:

  • 我的工程最多能同时运行多少个管道任务

  • 管道任务手动暂停、异常终止后怎么处理

  • 管道任务运行后,怎么新增/删除表

  • 原任务无法运行,需要重新配置任务,进入编辑任务界面,发现某设置项不能修改怎么办

  • 怎么处理脏数据

  • 怎么查看管道任务日志

用户可点击 数据管道运维指导 了解具体内容。

问题排查类文档编辑

近期对 FDL 中常见问题、故障类问题进行梳理整合,用户遇到问题可到 常见问题专题 文档中查看。

下表是近期新增的问题排查类文档。

说明
文档
XML 解析相关的报错及解决方案XML解析问题排查
JSON 解析相关的报错及解决方案JSON解析问题排查
管理系统使用相关的报错及解决方案管理系统问题排查
数据转换、数据服务的常见问题整理

数据转换FAQ

数据服务FAQ