反馈已提交

网络繁忙

数据的基础概念

  • 文档创建者:Roxy
  • 编辑次数:7次
  • 最近更新:jie.deng02 于 2022-06-16
  • 1. 概述

    在进行数据分析时,可能更重视数据分析方法,而忽略了数据处理。我们在使用数据前需要对已有的数据进行分类,了解它们的属性,为后续的数据分析做铺垫。

    根据数据属性我们可以分为「定性」和「定量」两类,根据数据值是否连续又可以把变量分为「连续」和「离散」两种。

    下面将带你了解如何划分数据类型。

    2. 变量是什么?

    上图是一张数据表,它可以回答下面很多问题,比如有多少种产品?每个产品单价是多少?每个产品的供应商是谁?产品的库存有多少?等等。这些问题的答案就是我们所研究的对象的特征,也就是所谓的「变量」。

    变量就是研究对象的特征,变量具体的数据就是「变量值」。比如「产品名称」就是一个变量,而「苹果汁」就是一个具体的变量值。

    3. 如何划分定量变量和定性变量?

    我们看到上面的数据表中「单价」变量展示的是具体的数值,但是「产品名称」变量则展示的特定的文字意义(当然可以用产品ID代替特定的文字)。

    这时候我们把类似单价这样定量的、有计算意义的变量叫做「定量」变量。用来描述“有多少”。

    把类似产品名称这样定性的、起代号作用的变量叫做「定性」变量。用来描述“是什么”。

    如下图所示:

    4. 什么是连续变量和离散变量?

    进一步进行分析。

    单价变量在取值范围内可以取任意正数,不仅仅是正整数,比如我们可以取单价是15.7、14.3等等,甚至可以取到小数点后很多位,因此这类变量称为连续变量,因为这类变量取值范围是连续不断的。

    家庭人口数变量,只能是正整数,比如 1、2、3,但是不能是 1.3,这类变量取值范围是不连续的,因此我们称为离散变量。

    注:一般来讲只有定量变量有连续和离散之分,定性变量虽然数据上和离散变量相似,但是它只有代号含义,比如产品ID,实际表示的是产品的名称类型,因此我们通常不把它当做离散变量。

    5. 有序分类变量和无需分类变量

    对于定性变量,也叫分类变量,我们将其分为「有序分类变量」和「无序分类变量」。

    「有序分类变量」:在定性变量取值时,存在程度差异。比如满意程度,我们将其分为「不满意」、「一般」、「满意」、「非常满意」。

    「无序分类变量」:在取值时没有等级程度的差异,比如我们上面提到的产品名称,将其分为「苹果汁」、「牛奶」、「盐」等等。


    附件列表


    主题: 功能场景案例

    售前咨询电话

    400-811-8890转1

    在线技术支持

    在线QQ:800049425

    热线电话:400-811-8890转2

    总裁办24H投诉

    热线电话:173-1278-1526

    文 档反 馈

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭