箱形圖(Box Plot),也稱為盒須圖或盒尾圖,是一種用於描述一組資料分佈特徵的統計圖表。
它能夠展示資料的最小值、第一四分位數(Q1)、中位數(Q2)、第三四分位數(Q3)和最大值,還可以包括異常值。
箱形圖因其形狀像個箱子和兩條“須”而得名,箱子代表資料的中間50%,須則代表最小值到Q1和Q3到最大值的範圍。
箱形圖特別適用於比較不同資料集的分佈情況,以及識別資料中的異常值。最常見用於品質管理、人事測評、探索性資料分析等統計分析活動。
例如,上圖用箱形圖展示了不同省份下城市的銷量資料,下圖用箱形圖和點圖展示了不同的合同類型客戶購買的產品數量情況:
1)優點
直覺性:箱形圖直覺地展示了資料的中心趨勢、離散程度和分佈形狀,便於快速識別資料的關鍵統計特徵
異常值檢查:透過箱形圖的“須”和單獨的點,可以容易地識別資料中的異常值或離群點
2)缺點
資訊有限:箱形圖不提供資料的實際分佈形狀,無法展示資料的密度或具體分佈情況
不精確性:箱形圖無法展示資料集中的具體數值,對於精確的資料點位置提供的資訊有限
箱子的中間有一條線,代表了資料的中位數( Q2 )。箱子的上下底,分別是資料的上四分位數(Q3)和下四分位數(Q1),這意味着箱體包含了 50% 的資料。有關箱形圖 Q1、Q2、Q3 這三個指標的介紹和計算方法,詳情參見統計學概念 四分位數
因此,箱子的高度在一定程度上反映了資料的波動程度。上下邊緣則代表了該組資料的最大值和最小值。超出最大值和低於最小值的點,可以理解為資料中的“異常值”。
各值的計算方法如下:
中位數:一組資料按照大小分佈後位於中間位置的數。
原始序列長度n指的是當前分類和系列下所有數值的個數。
如果原始序列長度n是奇數,那麼中位數所在位置是(n+1)/2;
如果原始序列長度n是偶數,那麼中位數所在位置是n/2,n/2+1,此時中位數的值等於這兩個位置的數的算數平均數。
上下四分位數:上四分位數的位置計算有爭議,我們採用最通行的計算方法——把數列分成四等份的數值。
把所有數值從小到大排列得到一個數列,把數列分割成四等份,在"分割點"位置的數值就是四分位數。
最大值:Q3+1.5*IQR( IQR 為 Q3-Q1)
最小值:Q1 - 1.5*IQR
異常值:最大最小值之外的資料即為異常值
注:'最大值'和'最小值'並非我們直覺理解中的陣列中最大最小值,而是基於公式計算的數值區間,並不一定對應資料中的實際任何一個值
1)使用者登入 FineBI 系統,點選「我的分析」,選中某個資料夾,點選「建立分析主題」,如下圖所示:
2)點選「本地Excel檔案>上傳資料」,上傳表資料。如下圖所示:
範例資料:銷量表.xlsx
3)上傳後,點選「確定」按鈕。如下圖所示:
4)點選「保存並更新」、「返回並預覽」,資料準備成功,如下圖所示:
1)點選左下角「組件」按鈕。
2)圖表類型下選擇「箱形圖」。
3)將左側待分析區域的「省份」拖入分析區域的橫軸,「銷量」拖入縱軸,「城市」拖入「圖形屬性」下的細粒度欄,如下圖所示:
將左側待分析區域的「省份」拖入「圖形屬性」下的顏色欄,不同省份則顯示為不同的顏色,如下圖所示:
1)點選分析主題編輯介面下方新增儀表板。
2)進入儀表板編輯介面,將組件拖入至儀表板中,如下圖所示:
3)下拉選擇「編輯標題」,樣式選擇「自訂」,設定標題為「箱形圖-不顯示異常點」,點選「確定」。如下圖所示:
1)PC端
2)行動端
參照本文3.1節內容,此處不再贅述。
範例資料:合同事實表.xlsx
2)圖表類型下選擇「自訂圖表」,將左側待分析區域的「合同類型」欄位拖入分析區域的橫軸,「購買的產品」欄位拖進縱軸兩次,如下圖所示:
3)「圖形屬性」下,兩個相同的指標欄位,形狀分別選擇「箱形圖」和「點」,如下圖所示:
4)將左側待分析區域的「客戶ID」欄位拖入「圖形屬性>全部」下的細粒度欄中,如下圖所示:
在圖形屬性下,點開形狀為點類型的指標欄位,點選大小設定按鈕,在彈出的設定框中調整點的半徑大小,如下圖所示:
點選分析區域縱軸第一個或第二個「購買的產品」欄位的下拉按鈕,選擇「設定值軸」,在彈出的設定框中顯示範圍勾選「自訂」,最大值設定為60,點選「確定」,如下圖所示:
參照本文3.4節內容,唯一不同在於設定標題為「箱形圖-顯示異常點」,此處不再贅述。
滑鼠選中內容,快速回饋問題
滑鼠選中存在疑惑的內容,即可快速回饋問題,我們將會跟進處理。
不再提示
10s後關閉
反馈已提交
网络繁忙