历史版本12 :箱形图 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

[helpvideo]5656[/helpvideo]

1.1 版本

FineBI 版本功能变更
6.0新增箱形图

1.2 应用场景

  • 涉及到多个指标分析时,如对采购价格进行分析,箱形图可分析最高价,最低价等各个价格计算指标。

  • 当需要了解数据分布特征或需要查看数据中的异常值时,可以使用箱形图进行数据分析。箱形图最常见用于质量管理、人事测评、探索性数据分析等统计分析活动。

1.3 基本要求

图表效果  维度字段    指标字段
箱形图  >=1  =1

1.4 图表特点

优点:用于显示一组连续型数据分布情况的统计图。

缺点:不适用批量较大的数据;不适用于表示趋势或者百分比的数据。

2. 箱形图简介编辑

1)箱形图介绍:

箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图,因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。通过箱形图我们可以观察数据是否有偏向性、是否对称、数据是否有异常值、数据分布是否太过密集等。

图表效果如下图所示:

1656412987255837.png

2)箱形图构成:

箱子的中间有一条线,代表了数据的中位数( Q2 )。箱子的上下底,分别是数据的上四分位数(Q3)和下四分位数(Q1),这意味着箱体包含了 50% 的数据。

有关箱形图 Q1、Q2、Q3 这三个指标的介绍和计算方法,详情参见统计学概念 四分位数 

因此,箱子的高度在一定程度上反映了数据的波动程度。上下边缘则代表了该组数据的最大值和最小值。超出最大值和低于最小值的点,可以理解为数据中的“异常值”。

1657074665682986.png

各值得计算方法如下:

  • 中位数:

一组数据按照大小分布后位于中间位置的数。

原始序列长度n指的是当前分类和系列下所有数值的个数。

如果原始序列长度n是奇数,那么中位数所在位置是(n+1)/2;

如果原始序列长度n是偶数,那么中位数所在位置是n/2,n/2+1,此时中位数的值等于这两个位置的数的算数平均数。

  • 上下四分位数:上四分位数的位置计算有争议,我们采用最通行的计算方法——把数列分成四等份的数值。

把所有数值从小到大排列

把数列分割成四等份

在"分割点"位置的数值就是四分位数

  • 最大值:Q3+1.5*IQR( IQR 为 Q3-Q1)

  • 最小值:Q1 - 1.5*IQR

  • 异常值:最大最小值之外的数据即为异常值。

'最大值'和'最小值'并非我们直观理解中的数组中最大最小值,而是去除了异常值之后剩余数据中的最大最小值,利用其他指标进行计算。

3. 示例一:不显示异常点编辑

3.1 准备数据

1)管理员进入系统,点击「我的分析」,选中某个文件夹,点击「新建分析主题」。如下图所示:

9.png

2)点击「本地Excel文件>上传数据」,上传表数据。如下图所示:

示例数据:销量表.xlsx

10.png

3)上传后,点击「确定」按钮。如下图所示:

11.png

3.2 创建组件

1)点击左下角「组件」按钮。如下图所示:

12.png

2)在图表类型下选择「箱形图」,将「省份」字段拖入到横轴中,「销量」字段拖入到纵轴中,「城市」字段拖入到细粒度中。如下图所示:

13.png

3.3 美化组件

「省份」字段拖入到颜色栏中。如下图所示:

14.png

3.4 效果查看

支持 PC 端和移动端。

效果如下图所示:

1656412963296824.png

4. 示例二:显示异常点编辑

4.1 准备数据

步骤参考本文 3.1 节内容。

示例数据:合同事实表.xlsx

4.2 创建组件

1)点击左下角「组件」按钮。如下图所示:

3.png

2)图表类型下选择「自定义图表」,将「合同类型」字段拖入横轴,「购买的产品」字段拖进纵轴两次。图形属性下,两个指标字段,图表类型分别选择「箱形图」和「点」。如下图所示:

4.png

3)图形属性下,点开「全部」,将「客户ID」字段拖入细粒度中。如下图所示:

9.png

4.3 美化组件

4.3.1 调整点大小

在图形属性下,点开对应点类型的指标字段,调整点大小。如下图所示:

10.png

4.3.2 调整纵轴最大值

设置纵轴最大值为 60 ,如下图所示:

12.png

4.4 效果查看

支持 PC 端和移动端。

效果如下图所示:

13.png

可看出,购买合同长期协议订单,存在异常点。