1. 概述编辑
一定程度上规范的业务数据,可以提高 FineChatBI 的识别精度,获得更加准确的分析结果,所以在准备时就需要保证业务数据的规范性。
本文将介绍如何将业务数据导入到 FineBI 并作为 FineChatBI 的提问数据,以及业务数据的规范有哪些注意点。
2. 准备提问数据编辑
2.1 将数据库数据添加到 FineBI
1)连接 FineBI 与数据库,详细可参见:数据连接支持范围
2)点击「公共数据」,将数据库中的数据添加到 FineBI ,如下图所示:
2.2 创建分析主题
1)因为最终 FineChatBI 是对分析主题进行提问,新建分析主题,将业务数据表添加到主题中。
2)若是需要对多张数据表进行多表分析,多表提问,那么构建主题模型(详情请参见:主题模型简介即构建方法)。如下图所示:
3)补充用户需要使用的分析字段,可以通过已有字段计算获得:
在编辑数据中添加字段补充
在组件中添加计算字段补充
3. 数据规范编辑
3.1 表结构规范
3.1.1 避免数据冗余
需要避免数据表中有业务数据冗余。多表分析时,比起使用 左右合并 制作宽表,更推荐直接使用 主题模型 建立模型关系。
比如,「销售额表」与「销售目标表」通过左右合并后获得的宽表如下图所示,当用户问“销售总目标是多少”时:
问答 BI 回复销售总目标:1600
实际销售总目标:1100
解决方案:将「销售额表」与「销售目标表」拆分在两张表中,使用 主题模型 建立多表之间的模型关系可避免出现数据冗余。
3.1.2 调整正确的字段类型
添加到 FineBI 中的字段类型系统会自动进行判断,IT 人员需检查字段是否都调整成了正确的字段类型。例如:
销售额字段若为文本类型,则无法顺利进行相加统计
销售日期若为文本类型,则不能顺利计算同比环比
3.2 表头表值规范
3.2.1 表头应避免语义交叉
在同一个数据表或同一个模型,应避免表头之间的语义重叠或混淆。例如:
有一个员工信息表格,原始表头可能包含“员工职位”和“员工级别”。用户询问“高级职位的员工有哪些”时,由于者两个表头语义混淆,系统就无法准确召回对应的表头。为了避免这种情况,可以将表头重新命名为“职位名称”和“职位等级”,这样就能清晰的区分员工等级高低。
3.2.2 表头表值应规整精炼
1)若表头或表值需要参与到用户的提问,则长度应该尽量短和简洁明了(少于10个字),有助于提高系统的试别能力。
2)并且表值内容需要规整,例如:
对于「支付方式」表头,可能列出“银行转账(工商银行等)”、“信用卡在线支付”、“移动支付(如支付宝)”,这种表述方式包含了不必要的细节。可以统一为“转账”、“信用卡”、“移动支付”,以提高筛选和报告生成的效率。
对于「省份」表头,可能列出“广东省(粤)”、“江苏省(苏)”、“辽宁省(辽)”,这种表述方式混合了省份的全称和简称,可能导致检索时混肴。统一格式,仅显示标准名称:“广东省”、“江苏省”、“辽宁省”,帮助系统准确识别信息。