历史版本4 :数据的基础概念 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

在进行数据分析时,可能更重视数据分析方法,而忽略了数据处理。我们在使用数据前需要对已有的数据进行分类,了解它们的属性,为后续的数据分析做铺垫。

根据数据属性我们可以分为「定性」和「定量」两类,根据数据值是否连续又可以把定量变量分为「连续」和「离散」两种。

下面将带你了解如何划分数据类型。

2. 变量是什么?编辑

上图是一张数据表,它可以回答下面很多问题,比如有多少种产品?每个产品单价是多少?每个产品的供应商是谁?产品的库存有多少?等等。这些问题的答案就是我们所研究的对象的特征,也就是所谓的「变量」。

变量就是研究对象的特征,变量具体的数据就是「变量值」。比如「产品名称」就是一个变量,而「苹果汁」就是一个具体的变量值。

3. 如何划分定量变量和定性变量?编辑

我们看到上面的数据表中「单价」变量展示的是具体的数值,但是「产品名称」变量则展示的特定的文字意义(当然可以用产品ID代替特定的文字)。

这时候我们把类似单价这样定量的、有计算意义的变量叫做「定量」变量。用来描述“有多少”。

把类似产品名称这样定性的、起代号作用的变量叫做「定性」变量。用来描述“是什么”。

4. 什么是连续变量和离散变量?编辑

进一步进行分析。

单价变量在取值范围内可以取任意正数,不仅仅是正整数,比如我们可以取单价是15.7、14.3等等,甚至可以取到小数点后很多位,因此这类变量称为连续变量,因为这类变量取值范围是连续不断的。

产品ID变量,其实本质上代表的是产品名称,ID只能是正整数,比如 1、2、3,但是不能是 1.3,这类变量取值范围是不连续的,因此我们称为离散变量。