反馈已提交

网络繁忙

平均值的秘密

  • 文档创建者:Roxy
  • 编辑次数:4次
  • 最近更新:Roxy 于 2022-06-08
  • 1. 概述

    在处理数据过程中,你经常会遇到这样的情况,计算一定量数据的平均数,来代表这些数据的平均水平。

    但是平均数真的是能反映平均水平吗?

    比如某些新闻里说:当前互联网行业人均月薪 2W、90后人均存款 50 W。看完这些报道后,你也许会叹息一声:给大家拖后腿了。

    其实平均数只有在特定的情况下才有价值。

    本文就来为你详细介绍平均数背后的含义,如何使用平均数才是有效的衡量数据。

    2. 什么时候平均数是有意义的?

    平均数反映数据集中趋势,它的计算方式通常是把所有的观测值相加后再除以观测值个数。

    但是如果我们拿到的数据是像下图这样有一些极端值。

    此时,我想要计算客户的平均回款金额,得到的数据结果发现大部分公司都没有满足平均的回款金额数量:

    其实平均值很容易受到极端值的影响,很多时候都是不能正确的反映数据整体真实情况的,尤其是在样本量较小的情况下,均数其实难以代表总体情况。

    整体平均值是在数据呈均匀分布或者正态分布的情况下才会有意义,如果忽略整个数据的分布情况,只提平均值,其实是没有意义的。

    3. 判断数据的分布

    那么拿到数据的第一步是什么呢?自然是判断数据的整体分布形态。

    画出直方图可以帮助我们快速了解数据的分布,也就是数据样本集中在哪里。

    例如客户购买金额的数据,我们以横轴为购买金额区间,纵轴为在该区间的公司数,画出直方图如下图所示:

    就可以看到这些数据的集中趋势,大部分分布在151-167之间,那么用平均值代表客户的购买金额就是不合适的。

    4. 分组和整体平均值

    那怎么才能反映真实情况呢?

    比如我们第一节说的 90 后的平均存款到了 50W,哪些人能有这么多存款?我们会想到所在城市、年龄段、工作背景、收入来源等等信息。比如一线城市 90 后的存款可能普遍比二三线城市高,然后再拿自己进行比较。这时就引入了分组的概念。

    「分组平均值」和「整体平均值」其实是不同的,整体平均值由于受到极端值的影响,结果不准确。分组平均值则是在对应的组别范围内计算数据的平均情况。

    「分组平均值」和「整体平均值」结果可能完全不同。

    这就引申出一个很有趣且常见的概念:辛普森悖论

    辛普森悖论的一个著名的例子出现在加州大学伯克利分校录取数据。在此示例中,从总体上看研究生录取数据时,看来男性比女性更容易被录取(性别歧视),但是当单独查看每个学院的数据时,女性比男性更容易被录取。


    原因就是:

    不同学院的接受率非常不同,更多女性申请“更难”的部门。

    如果要避免「辛普森悖论」给我们带来的误区,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响。比如使用 ARPU、ARPPU 等。

    同样地,如果要更客观分析产品的运营情况,就需要设立更多角度去综合评判。


    附件列表


    主题: 数据分析方法
    已经是第一篇
    已经是最后一篇
    • 有帮助
    • 没帮助
    • 只是浏览

    售前咨询电话

    400-811-8890转1

    在线技术支持

    在线QQ:800049425

    热线电话:400-811-8890转2

    总裁办24H投诉

    热线电话:173-1278-1526

    文 档反 馈

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭