1. 概述编辑
1.1 版本
FineBI 版本 | 功能变更 |
---|---|
6.0 | 新增箱型图 |
1.2 应用场景
涉及到多个指标分析时,如对采购价格进行分析,箱型图可分析最高价,最低价等各个价格计算指标。
当需要了解数据分布特征或需要查看数据中的异常值时,可以使用箱形图进行数据分析。箱形图最常见用于质量管理、人事测评、探索性数据分析等统计分析活动。
1.3 基本要求
图表效果 | 维度字段 | 指标字段 |
---|---|---|
箱型图 | >=1 | =1 |
1.4 图表特点
优点:用于显示一组连续型数据分布情况的统计图。
缺点:不适用批量较大的数据;不适用于表示趋势或者百分比的数据。
2. 箱型图简介编辑
1)箱型图介绍:
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图,因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。通过箱形图我们可以观察数据是否有偏向性、是否对称、数据是否有异常值、数据分布是否太过密集等。
图表效果如下图所示:
2)箱型图构成:
箱子的中间有一条线,代表了数据的中位数( Q2 )。箱子的上下底,分别是数据的上四分位数(Q3)和下四分位数(Q1),这意味着箱体包含了 50% 的数据。
有关箱形图 Q1、Q2、Q3 这三个指标的介绍和计算方法,详情参见统计学概念 四分位数
因此,箱子的高度在一定程度上反映了数据的波动程度。上下边缘则代表了该组数据的最大值和最小值。超出最大值和低于最小值的点,可以理解为数据中的“异常值”。
各值得计算方法如下:
中位数:
一组数据按照大小分布后位于中间位置的数。
原始序列长度n指的是当前分类和系列下所有数值的个数。
如果原始序列长度n是奇数,那么中位数所在位置是(n+1)/2;
如果原始序列长度n是偶数,那么中位数所在位置是n/2,n/2+1,此时中位数的值等于这两个位置的数的算数平均数。
上下四分位数:上四分位数的位置计算有争议,我们采用最通行的计算方法。
把数列分成四等份的数值
把所有数值从小到大排列
把数列分割成四等份
在"分割点"位置的数值就是四分位数
最大值:Q3+1.5*IQR( IQR 为 Q3-Q1)
最小值:Q1 - 1.5*IQR
异常值:最大最小值之外的数据即为异常值。
注:'最大值'和'最小值'并非我们直观理解中的数组中最大最小值,而是去除了异常值之后剩余数据中的最大最小值,利用其他指标进行计算。
3. 示例一:不显示异常点编辑
3.1 准备数据
1)管理员进入系统,点击「我的分析」,选中某个文件夹,点击「新建分析主题」。如下图所示:
2)点击「本地Excel文件>上传数据」,上传表数据。如下图所示:
示例数据:销量表.xlsx
3)上传后,点击「确定」按钮。如下图所示:
3.2 创建组件
1)点击左下角「组件」按钮。如下图所示:
2)在图表类型下选择「箱形图」,将「省份」字段拖入到横轴中,「销量」字段拖入到纵轴中,「城市」字段拖入到细粒度中。如下图所示:
3.3 美化组件
将「省份」字段拖入到颜色栏中。如下图所示:
3.4 效果查看
支持 PC 端和移动端。
效果如下图所示:
4. 示例二:显示异常点编辑
4.1 准备数据
步骤参考本文 3.1 节内容。
示例数据:合同事实表.xlsx
4.2 创建组件
1)点击左下角「组件」按钮。如下图所示:
2)图表类型下选择「自定义图表」,将「合同类型」字段拖入横轴,「购买的产品」字段拖进纵轴两次。图形属性下,两个指标字段,图表类型分别选择「箱形图」和「点」。如下图所示:
3)图形属性下,点开「全部」,将「客户ID」字段拖入细粒度中。如下图所示:
4.3 美化组件
4.3.1 调整点大小
在图形属性下,点开对应点类型的指标字段,调整点大小。如下图所示:
4.3.2 调整纵轴最大值
设置纵轴最大值为 60 ,如下图所示:
4.4 效果查看
支持 PC 端和移动端。
效果如下图所示:
可看出,购买合同和长期协议订单,存在异常点。