1. 概述
在进行数据分析时,可能更重视数据分析方法,而忽略了数据处理。我们在使用数据前需要对已有的数据进行分类,了解它们的属性,为后续的数据分析做铺垫。
根据数据属性我们可以分为「定性」和「定量」两类,根据数据值是否连续又可以把变量分为「连续」和「离散」两种。
下面将带你了解如何划分数据类型。
2. 变量是什么?
上图是一张数据表,它可以回答下面很多问题,比如有多少种产品?每个产品单价是多少?每个产品的供应商是谁?产品的库存有多少?等等。这些问题的答案就是我们所研究的对象的特征,也就是所谓的「变量」。
变量就是研究对象的特征,变量具体的数据就是「变量值」。比如「产品名称」就是一个变量,而「苹果汁」就是一个具体的变量值。
3. 如何划分定量变量和定性变量?
我们看到上面的数据表中「单价」变量展示的是具体的数值,但是「产品名称」变量则展示的特定的文字意义(当然可以用产品ID代替特定的文字)。
这时候我们把类似单价这样定量的、有计算意义的变量叫做「定量」变量。用来描述“有多少”。
把类似产品名称这样定性的、起代号作用的变量叫做「定性」变量。用来描述“是什么”。
如下图所示:
4. 什么是连续变量和离散变量?
进一步进行分析。
单价变量在取值范围内可以取任意正数,不仅仅是正整数,比如我们可以取单价是15.7、14.3等等,甚至可以取到小数点后很多位,因此这类变量称为连续变量,因为这类变量取值范围是连续不断的。
家庭人口数变量,只能是正整数,比如 1、2、3,但是不能是 1.3,这类变量取值范围是不连续的,因此我们称为离散变量。
注:一般来讲只有定量变量有连续和离散之分,定性变量虽然数据上和离散变量相似,但是它只有代号含义,比如产品ID,实际表示的是产品的名称类型,因此我们通常不把它当做离散变量。
5. 有序分类变量和无序分类变量
对于定性变量,也叫分类变量,我们将其分为「有序分类变量」和「无序分类变量」。
「有序分类变量」:在定性变量取值时,存在程度差异。比如满意程度,我们将其分为「不满意」、「一般」、「满意」、「非常满意」。
「无序分类变量」:在取值时没有等级程度的差异,比如我们上面提到的产品名称,将其分为「苹果汁」、「牛奶」、「盐」等等。