反馈已提交

网络繁忙

数据的基础概念

  • 文档创建者:Roxy
  • 历史版本:7
  • 最近更新:jie.deng02 于 2022-06-16
  • 1. 概述

    在进行数据分析时,可能更重视数据分析方法,而忽略了数据处理。我们在使用数据前需要对已有的数据进行分类,了解它们的属性,为后续的数据分析做铺垫。

    根据数据属性我们可以分为「定性」和「定量」两类,根据数据值是否连续又可以把变量分为「连续」和「离散」两种。

    下面将带你了解如何划分数据类型。

    2. 变量是什么?

    上图是一张数据表,它可以回答下面很多问题,比如有多少种产品?每个产品单价是多少?每个产品的供应商是谁?产品的库存有多少?等等。这些问题的答案就是我们所研究的对象的特征,也就是所谓的「变量」。

    变量就是研究对象的特征,变量具体的数据就是「变量值」。比如「产品名称」就是一个变量,而「苹果汁」就是一个具体的变量值。

    3. 如何划分定量变量和定性变量?

    我们看到上面的数据表中「单价」变量展示的是具体的数值,但是「产品名称」变量则展示的特定的文字意义(当然可以用产品ID代替特定的文字)。

    这时候我们把类似单价这样定量的、有计算意义的变量叫做「定量」变量。用来描述“有多少”。

    把类似产品名称这样定性的、起代号作用的变量叫做「定性」变量。用来描述“是什么”。

    如下图所示:

    4. 什么是连续变量和离散变量?

    进一步进行分析。

    单价变量在取值范围内可以取任意正数,不仅仅是正整数,比如我们可以取单价是15.7、14.3等等,甚至可以取到小数点后很多位,因此这类变量称为连续变量,因为这类变量取值范围是连续不断的。

    家庭人口数变量,只能是正整数,比如 1、2、3,但是不能是 1.3,这类变量取值范围是不连续的,因此我们称为离散变量。

    注:一般来讲只有定量变量有连续和离散之分,定性变量虽然数据上和离散变量相似,但是它只有代号含义,比如产品ID,实际表示的是产品的名称类型,因此我们通常不把它当做离散变量。

    5. 有序分类变量和无序分类变量

    对于定性变量,也叫分类变量,我们将其分为「有序分类变量」和「无序分类变量」。

    「有序分类变量」:在定性变量取值时,存在程度差异。比如满意程度,我们将其分为「不满意」、「一般」、「满意」、「非常满意」。

    「无序分类变量」:在取值时没有等级程度的差异,比如我们上面提到的产品名称,将其分为「苹果汁」、「牛奶」、「盐」等等。


    附件列表


    主题: 数据分析方法
    • 有帮助
    • 没帮助
    • 只是浏览

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持