反馈已提交

网络繁忙

三分钟带您了解 FineDataLink 近期上新方案类文档

  • 文档创建者:Wendy123456
  • 历史版本:6
  • 最近更新:Wendy123456 于 2024-06-03
  • 六月栖鸦群过山,麦风摇曳熟瓜香。

    让我们来看看 FineDataLink 近期上新的文档吧~

    上新文档速览:

    1)客户案例

    • 文件拆分:只保留最新拆分的文件

    • API取数:数据每日落库

    • FineReport接收并使用数据服务发布的数据

    • JSON解析前过滤出不合法的数据

    2)功能使用指导

    • 确认HDFS地址中的IP和端口

    • 数据管道与数据开发区别

    • 参数在FDL中的典型应用场景、如何配置并使用参数

    • 数据管道运维指导

    3)问题排查类文档

    客户案例

    文件拆分:只保留最新拆分的文件

    应用场景:

    文件输出算子 可将数据按行数拆分至多个文件,但存在以下问题:

    场景
    问题
    每次运行后,被拆分的文件存在重名情况

    用户多次运行任务,根据数据量不同,被拆分的文件个数可能不同

    若用户第一次运行任务,数据被拆分为 5 个文件,第二次运行任务数据被拆分为 3 个文件,上一次被拆分的文件依然存在,影响用户查看文件数据

    每次运行后,被拆分的文件不存在重名情况

    若被拆分的文件以日期和时间命名,文件不重名,但随着运行次数增多,生成的拆分文件过多,占用空间

    本文提供方案解决上述问题。

    实现思路:

    使用「shell 脚本」节点和「文件输出」算子:

    • 「文件输出」算子将处理后的数据按照行数拆分为多个文件。

    • 「shell 脚本」节点,每次只保留最新的拆分文件,将上一次生成的文件打包压缩备份起来,且只保留近 7 天的压缩文件。

    方案效果如下:

    每次只保留最新的拆分文件,将上一次生成的文件打包压缩备份起来,且只保留近 7 天的压缩文件。

    3.png

    参考文档:

    详情请参见:文件拆分:只保留最新拆分的文件

    API取数-数据每日落库

    应用场景:

    API 接口中每天有 20 多万的数据,若落库到同一张表中,随着时间该表数据不断累积,可能造成查询慢的问题。

    希望能按日期分表,每天创建一个新的数据表,保存该天数据。

    实现思路:

    • 根据实际需要从 API 接口中取出今天数据,将数据落库到临时表中。

    • 自定义每天的表名,创建表结构,将临时表中的数据写入新创建的表中。

    • 清空临时表,设置调度频率。

    方案效果如下:

    4.png

    参考文档:

    详情请参见:按日期分表,每天保存当天数据

    FineReport接收并使用数据服务发布的数据

    应用场景:

    用户为保证数据安全,不希望直接将数据仓库账号开发给第三方使用,且拥有 FineDataLink 作为数据中台,想使用「数据服务」功能,统一分发数据给第三方使用,同时想要使用 FineReport 直接接收数据制作看板。

    实现思路:

    方案一:使用JSON 数据集插件,在报表设计器或决策平台安装插件,接收数据服务 API 数据并制作看板。

    方案二:使用数据工厂数据集插件在报表设计器或决策平台安装插件,接收数据服务 API 数据并制作看板。

    参考文档:

    详情请参见:FineReport接收并使用数据服务发布的数据

    JSON解析前过滤出不合法的数据

    应用场景:

    大数据量场景下的 json 数据解析,存在问题如下:

    • 如果存在几条不合法的 json 格式数据,解析时会导致整个定时任务运行终止。

    • json 解析是数据处理过程,定时任务的脏数据容忍没办法排除 json 不合法数据对任务的影响。

    用户希望:

    • 过滤出不合法的 json 格式数据,使其不影响定时任务的运行。

    • 大数据量场景下,快速找出不合法的 json 格式数据。

    实现思路:

    使用 Python 的 is_valid_json 判断 json 是否合法,合法的的 json 参与解析。

    7.png

    参考文档:

    详情请参见:JSON解析前过滤出不合法的数据

    更多方案

    可点击 最佳实践合集 查看。

    功能使用指导

    确认HDFS地址中的IP和端口

    配置 星环 TRANSWARP INCEPTOR 数据源Hive 数据源 时,存在设置项 HDFS 地址。如下图所示:

    8.png

    本文将介绍确定 HDFS 地址中 IP 和端口的方法。详情请参见:确认HDFS地址中的IP和端口

    数据管道与数据开发区别

    用户在使用 FDL 时,常常会有以下疑问:

    • 数据管道与数据开发都能同步数据,他俩有啥区别

    • 数据管道和数据开发的使用场景是什么

    用户可点击 数据管道与数据开发区别 文档,详细了解这两个模块的区别。

    如何使用参数&参数使用场景

    用户在了解与使用参数功能时,常常会有以下疑问:

    • FDL 中,参数能实现哪些场景,应该在哪些场景中使用参数

    • FDL 中,全局参数、内置参数、任务内参数分别是什么,什么场景下使用

    • 参数赋值节点和参数输出算子有什么区别

    • FDL 中,怎么定义并使用参数

    用户可点击 参数在FDL中的典型应用场景如何配置并使用参数 了解具体内容。

    管道运维指导

    管道任务运行后,用户常常有以下问题:

    • 我的工程最多能同时运行多少个管道任务

    • 管道任务手动暂停、异常终止后怎么处理

    • 管道任务运行后,怎么新增/删除表

    • 原任务无法运行,需要重新配置任务,进入编辑任务界面,发现某设置项不能修改怎么办

    • 怎么处理脏数据

    • 怎么查看管道任务日志

    用户可点击 数据管道运维指导 了解具体内容。

    问题排查类文档

    近期对 FDL 中常见问题、故障类问题进行梳理整合,用户遇到问题可到 常见问题专题 文档中查看。

    下表是近期新增的问题排查类文档。

    说明
    文档
    XML 解析相关的报错及解决方案XML解析问题排查
    JSON 解析相关的报错及解决方案JSON解析问题排查
    管理系统使用相关的报错及解决方案管理系统问题排查
    数据转换、数据服务的常见问题整理

    数据转换FAQ

    数据服务FAQ











    附件列表


    主题: 数据开发
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持