【1.1.3】统计数据及其分类（变量分类）

February 07, 2017 statistics 阅读量：次

一、认识数据

现代汉语词典对数据的解释是:进行各种统计、计算、科学研究或技术设计等所依据的数值。下面我们提供四个数据集，让大家对数据有一个直观的了解。

1.1 中国历年主要宏观经济指标数据集(数据集 01， SPSS 数据文件编号:data1_01)

中国历年主要宏观经济指标数据集记载了中国从 1952 年至 2010 年各主要宏观经济指标(资料来源:根据历年《中国统计年鉴》和国家外汇管理局发布的数据整理)。指标包括: 国民总收入、国内生产总值、各个产业的增加值、财政总收支总量指标，它们都是按人民币计价，单位为:亿元;人均 GDP，单位为:元/人;外汇储备以亿美元计价。图 1.1 是该数据集的部分截图。

1.2 1995 年世界各国基本情况数据集(数据集 02， SPSS 数据文件编号:data1_02)

1995 年世界各国基本情况数据集记载了 1995 年 109 个国家主要社会经济指标(资料来源:根据 SPSS 自带演示数据库整理)。指标包括:国家名称、人口(千人)、人口密度(人 /每平方公里)、城市人口比重(%)、宗教信仰、期望寿命(分男、女)、识字率(分男、女)、人口增长率(%)、婴儿死亡率(‰)、人口出生率(‰)、死亡率(‰)、人均 GDP (美元/人)、地区类型分六类(1-OECD 国家、2-东欧、3-太平洋、亚洲、4-非洲、5-中东、 6-拉丁美洲)等等。图 1.2 是该数据集的部分截图。

1.3 公司人力资源部数据集(数据集 03， SPSS 数据文件编号:data1_03)

公司人力资源部数据集记载了该公司工作年限在 5 年以上的 470 名员工受教育、考评与薪金的相关信息。有关信息说明如下:性别中“m”表示男性员工，“f” 表示女性员工;出生日期中的“******”表示该数据没有收集到;教育程度是指员工接受教育的年数;按工作岗位将员工分为“基本生产员工、服务与辅助生产员工、技术与管理员工”分别用“1、2、3”表示;2009-2012 年三年的考评按“优、良、中、合格、不合格”五个等级进行;薪水是指员工现在的年薪;初薪是指员工到公司的第一年薪水;员工中少数民族用“1”表示，非少数民族用“0”表示。图 1.3 是该数据集的部分截图。

1.4 企业流水线上的抽样数据集(数据集 04， SPSS 数据文件编号:data1_04)

工厂流水线上的抽样数据集记载了一个车间 2012 年一月份每天在 9:00、11:00、14: 00、16:00 四次采样的测量数据(单位:克)以及对产品包装合格情况的检验数据，图 1.4 是该数据集的部分截图。

二、数据分类

我们从下面的例子来看看数据的衡量尺度。南京是著名的“火炉”城市，为避夏季的酷热，多家旅行社推出了“南京周边一日游”，有许多市民参加了，旅游结束后，他们被要求填下面的一张调查表:

这张调查表中显示的数据类型是:

2.1 分类数据(categorical data)

分类数据是对事物进行分类的结果，数据的主要特征是采用文字、数字的代码和其他符号对事物进行简单的分类。比如，对人口按性别、民族、行政区划和婚姻状况等做归类统计，对企业按照经济性质进行分类。使用分类数据时，各个类别只是一个名称而已，类别之间的关系不作任何的假定。在实际中，为便于计算机识别和信息传输，对于分类性质的统计数据，人们往往给每一个类别赋予数字代码。例如，男性用 1 表示，女性用 0 表示，但这就好像给商品贴上标签一样，仅是示意性的，数字代码不可以直接进行数字的运算。调查表中问题一所提供的数据就属这类。

分类数据以定类尺度(nominal scale)来衡量。数据集 02 中的“国家”、“信仰宗教”和“地区类型”都是这类数据。

2.2. 顺序数据(rank data)

顺序数据，也可称为等级数据，也是对事物进行分类的结果，只是这些分类在语义上表现出明显的顺序或等级关系，例如，学生的成绩分为优秀、良好、中等、及格和不及格;产品的质量可以分为优等品、合格品和不合格品;用户的满意程度可以分为很满意、满意、不满意和很不满意。顺序数据比分类数据含有的信息量更多，能够进行差别和好坏的比较，但差别和好坏的程度，仍然无法给出一个具体的评价尺度。调查表中问题二所提供的数据就属这类。

顺序数据以定序尺度(ordinal scale)来衡量。数据集 03 中的三年的考评情况就是这类数据。

由于分类数据和顺序数据都说明的是事物的品质特征，通常用文字来表述，其结果均表现为类别，因此也把它们统称为定性数据或品质数据。

2.3. 数值型数据(metric data)

数值型数据是使用自然或度量衡单位对事物进行测量的结果，其结果表现为具体数值。它说明的是现象的数量特征，通常是用数值来表现，因此也称为定量数据或数量数据，例如考试成绩用百分制来表示;人的年龄用周岁来表示;产品的产量用件、箱和吨等来表示;各个数据之间不仅可以对比大小反映差别，还可以计算各种平均数。调查表中问题三、四所提供的数据就属这类。

数值型数据有两种衡量尺度:一是定距尺度(interval scale)，这种尺度的每一间隔是相等的，只要给出一个度量单位，就可以准确地指出两个计数之间的差值，如南京的最高温度是 40°C，溧阳天目湖的最高温度是 33°C，二者相差 7°C，这类数据可以进行有意义的加减运算;二是定比尺度(ratio scale)，这种尺度可以准确地计量两个数值之间的倍数，如市民甲这次旅游花费了 200 元，市民乙花费了 100 元，则市民甲比市民乙多化了一倍的钱，显然这类数据可以进行有意义的乘除运算。很多经济变量都属于这种类型，如产品产量、销售额、固定资产投资、居民收入、消费支出、银行贷款余额等。

区别这两类数据的显著特征是:用定比尺度测定的数值型数据有一个绝对固定的“零点”， “0”表示的是数值，即“没有”如花费是“0”，则表示没有花费;而定距尺度测定的数据的“0”，表示的是一种水平，比如温度为“0”，不是说没有温度，而是温度在“0”这样的一个水平上。

数据集 01 中的所有数据、数据集 02 中的“人口”、“人口密度”、“男、女期望寿命”就都是定比尺度数据。

三、其他数据分类

当然，还有其他类型的数据：

观察数据集 01 与数据集 02，前者以时间为序列示被描述的对象;后者是按国名顺序列示被描述的对象，而时间都固定在 1995 年。我们把以时间为序排列的数据称为时间序列数据，而在同一时间层面上显示的数据称为截面数据。这两类数据在计算描述统计量和构建模型时都有所区别。

3.1 时间序列数据(time series data)

是在不同时间上收集到的数据，它所描述的是现象随时间而变化的情况，如 1952—2011 年我国各年的人口总数、1952—2011 年我国历年国内生产总值数据都属时间序列数据。

3.2 截面数据(cross-sectional data)

是在相同或近似相同的时间点上收集的数据，它所描述的是现象在某一时刻或某一时间段的变化情况，如 2011 年我国各地区的人口数、2011 年我国各地区的国内生产总值数据都属截面数据。

3.3 面板数据(panel data)

是对若干个单位在不同时间进行重复跟踪调查所形成的数。例如，我们连续 20 年收集得到的企业工人的工资、受教育程度和就业情况的数据。

四、变量及其分类

统计研究中，变量(variable)是一个非常重要的概念。变量是相对于常量(constant) 而言的，如果一个企业有 1000 名职工，这是一个固定的数目，就是常量，也可称常数。如果想知道今天在岗有多少职工，这就不一定了，可能是 999 人，也可能是 998 人，因为有可能有请病假的，也有可能有请事假的，这样“在岗人数”就是一个变量，它是现象本身所固有的、随条件变化而变化的量。变量有变量名和变量值，如 2011 年中国国内生产总值 471564 亿元人民币，则 2011 年中国国内生产总值是变量名，471564 亿元人民币是变量值。变量常分为:

4.1. 自变量和因变量

自变量(independent variable)是自身变化会引起其他变量变化的量;因变量(dependent variable)是受其他变量影响而变化的量。如一个国家的消费水平受这个国家的生产水平的影响，因此，人均国内生产总值是自变量，人均消费金额是因变量。这对概念多在相关和回归分析中使用。

4.2 确定性变量和随机性变量

确定性变量(Deterministic variable)是受确定性因素影响的变量，这种影响变量值变化的因素是明显的、可解释的、人为的或者受人控制的，其影响变量值的大小、方向都可以确定。如产品总成本的变化受产品产量和单位成本两个因素的影响，而这两者都是人为可以控制的变量，并且对生产总成本影响的大小和方向也是确定的。随机变量(random variable) 是受随机性因素影响的变量，所谓随机性因素，是指各种不确定的、偶然性的因素，这种因素对变量影响的大小和方向都是不确定的，通常是微小的。如流水线上生产零件，即使在看似完全相同的生产条件下，零件的尺寸也会存在差异，究其原因可能是电压的高低、气温、湿度的变化，甚至是操作者的情绪。统计学研究的变量主要是随机变量。

4.3. 分类变量与定量变量

数据分为不可测量的数据和可测量的数据，

4.3.1 分类变量

这里的分类跟下面的有区别，先把它放在这吧

定性变量(Qualitative variable)：

(i) 分类变量(Categorical variable)
名义变量(Nominative variable)
水平 (Level):代码(Code) 用1、2、3、4、5等表示水平
二分类变量(Binary variable) 假变量(Dummy variable) 

(ii) 有序变量 (Ordinal variable)
种种可能的“取值”中自然地存在着次序

分类变量有有序变量(Ordinal variable)、无序变量和二分类(Binary variable)，其中有序和无序都是多分类

有序变量(Ordinal variable)：高血压1期、II期、III期属于有序变量同时也属于等级资料；疾病程度（轻度，中度，重度）无序变量：汉族、回族、哈组；工人、农民、教师这样得属于无序变量，
二分类变量(Binary variable)：男性、女性；死亡、存活

在分析方法中差别性检验中，二分类变量和无序变量都能用卡方检验，只不过一个是四格表卡方一个是RXC列联卡方，而有序变量也就是等级资料就得用秩和检验。

在多元回归时，有序变量和二分类变量都是赋值1、2、3或0、1求得一个OR或RR值，而无序资料就必须要设置哑变量（虚拟变量，Dummy variable），例如职业工人、农民、教师。你计算得时候赋值为工人＝1、农民=2、教师=3，如果你当成连续得变量去计算那么得到一个OR或RR值，解释为每增加一个等级发生某病得危险性增加多少倍。那么在无序变量就意味着工人增加一个等级，这是不可能的。因为这样得变量各等级之间不存在1、2、3的数学关系。

在有序变量中，我们可以多元回归来检验假设，运用的原理时最小二乘法。在无序变量中，我们必须引用哑变量（虚拟变量）来实现logistic回归。在运用logistics回归分析之前我们必须先要理解虚拟变量。

下面的重点就是关于虚拟变量的讲解。

虚拟变量的含义

虚拟变量是用以反映质的属性的一个人工变量，取值为 0 或 1，通常记为 D（Dummy Variable）,又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。（注意：虚拟变量D只能取0或1两个值，即属性之间不能运算！对基础类型或否定类型设 D=0对比较类型或肯定类型设 D=1）如1 男性；D = 0 女性

但是，虚拟变量主要是用来代表质的因素，但有些情况下也可以用来代表数量因素。例如：在建立储蓄函数时，“年龄”是一个重要的解释变量。虽然“年龄”是一个数量因素，但为了方便也可以用虚拟变量表示。例如：可以把居民分为两个年龄组：第一组：20~35岁的居民，第二组：35~60岁的居民，用“1”表示第一年龄组；“0”表示第二年龄组，就可以估计年龄对储蓄的影响。

虚拟变量的设置规则

（1）.两个属性的表示法

如性别有两个属性：用 Di 表示。即：两个属性引入一个变量即可！

（2）.多个属性的表示法。假设学历有四个属性：博士、硕士、本科、本科以下等，则四个属性3个变量。

变量 属性
    D1 D2 D3
博士 1 0 0
硕士 0 1 0
本科 0 0 1
本科以下 0 0 0

即:m个属性引入(m-1)个变量即可

（3）.多个因素各两个属性的表示法。如需要同时表示城乡差别和性别差别

D1 D2
城市男性 1 1
城市女性 1 0
农村男性 0 1
农村女性 0 0

分类变量的作用

可以描述和测量定性因素的影响
分离异常因素的影响，例如分析我国GDP的时间序列，必须考虑“文革”因素对国民经济的破坏性影响，剔除不可比的“文革”因素。
检验不同属性类型对因变量的作用例如工资模型中的文化程度、季节对销售额的影响。
提高模型的精度

分类变量的建立模型。

A．解释变量中只有虚拟变量。如：调查某地区性别与收入之间的关系，可以用模型表示如下： Yi =α+βDi + ui Yi代表收入，Di为虚拟变量

B.解释变量中既有虚拟变量又有定变量。如研究消费水平与居民收入的关系时，还要考虑城乡居民消费水平的差异，消费函数可设为： Yi=α0+α1Di+βXi+ ui Yi 为消费水平，Xi 为居民收入，Di为虚拟变量。

假如还要考虑男女消费水平的差异，消费函数为：

Yi =α0+α1D1i+α2D2i+βXi+ui

Yi 为消费水平，Xi 为家庭收入，D1i和D2i为虚拟变量。

虚拟变量陷阱

如某些商品的销售量有季节性，假设销售函数为：

当我们引入4个虚拟变量出现了完全多重共线性的问题! OLS（线性回归法）不能使用!，这就是虚拟变量陷阱问题。所以对于具有m个属性的虚拟变量：若模型中含有截距项，引入 m-1个虚拟变量；若模型中不含有截距项，引入 m 个虚拟变量。

无序变量分析工具——LOGISTIC

该法研究是当 y 取某值（如y=1）发生的概率（p）与某暴露因素（x）的关系。 P（概率）的取值波动0～1范围。基本原理：用一组观察数据拟合Logistic模型，揭示若干个x与一个因变量取值的关系，反映y 对x的依存关系。如图;

它的图像是一条S型曲线，有下列特征：

（1）概率0≤pi=E(Yi︱Xi)≤1, 解决了条件概率有可能大于1或小于0的问题；

（2）当Xi→+∞时，pi →1，当Xi→-∞时， pi →0， pi随Xi变化而变化，且变化速率不是常数，更加符合实际情况

对于这个方程我们应该了解到

1.变量的取值logistic回归要求应变量（Y）取值为分类变量（两分类或多个分类）自变量（Xi）称为危险因素或暴露因素，可为连续变量、等级变量、分类变量。可有m个自变量X1， X2，… Xm

一个自变量与Y关系的回归模型如：y：发生=1,未发生=0 x 有=1无=0，记为p（y=1/x）表示某暴露因素状态下，结果y=1的概率（P）模型

通过取对数得到

注：就建立了线性关系。如果是多个变量的话，方程应为

Β0（常数项）：暴露因素Xi=0时，个体发病概率与不发病概率之比的自然对数比值。

B1的含义：某危险因素，暴露水平变化时，即Xi=1与Xi=0相比，发生某结果（如发病）优势比的对数值。

P1（y=1/x=1）的概率 P0（y=1/x=0）的概率

最后，参数检验：一般有似然比检验（likehood ratio test），比分检验（score test）Wald检验（ wald test），在我们用SPSS分析数据后。会出现几个表，我们应该看懂这个表Variables in the Equation 里面的东西。它含有wald：检验因子；df：自由度；sig：显著性检验；EXP（B）：OR值。我们主要判断P值是否大于0小于0.05，若在这范围内，就表示有自变量和应变量是有关系的。

4.3.2 定量变量(Quantitative variable)

变量按变量值是否连续分为：

连续变量
离散变量

变量的连续性或离散性，通常是以变量值是否可以无限分割为标准。若一个变量相邻的两个变量值之间可以继续分割，取得新的变量值，该变量称为连续型变量(continuous variable)，如道路的长度、耕地面积、粮食总产量、人的平均身高、劳动生产率等，连续型变量通常是以测量或计算的方法取得变量值。若一个变量相邻的两个变量值之间不可能再分割出新的变量值，该变量称为离散型变量(discrete variable)，如职工人数、企业数、产品件数等，离散型变量通常是以点数的方法取得变量值。在研究分布特征时，离散型和连续型随机变量往往会服从不同的概率分布。

4.3.2.1 离散变量(discrete variable)

离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.

性质：符号x如果能够表示对象集合S中的任意元素，就是变量。如果变量的域(即对象的集合S)是离散的，该变量就是离散变量；如果它的域是连续的，它就是连续变量。

对离散变量，如果变量值的变动幅度小，就可以一个变量值对应一组，称**单项式分组。**如居民家庭按儿童数或人口数分组，均可采用单项式分组。

离散变量如果变量值的变动幅度很大，变量值的个数很多，则把整个变量值依次划分为几个区间，各个变量值则按其大小确定所归并的区间，区间的距离称为组距，这样的分组称为组距式分组。

也就是说，离散变量根据情况既可用单项式分组，也可用组距式分组。在组距式分组中，相邻组既可以有确定的上下限，也可将相邻组的组限重叠。

4.3.2.2 连续变量（continuous variable)

在一定区间内可以任意取值的变量叫连续变量，其数值是连续不断的，相邻两个数值可作无限分割，即可取无限个数值。例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得

连续变量由于不能一一列举其变量值，只能采用组距式的分组方式，且相邻的组限必须重叠。如以总产值、商品销售额、劳动生产率、工资等为标志进行分组，就只能是相邻组限重叠的组距式分组

“连续”: 变量可在实数轴上连续变动

变通: 红细胞记数也视为连续型变量(一个、两个、三个之间的差别并不重要)

4.3.2.3 区分方法

连续变量与离散变量的简单区别方法：连续变量时一直叠加上去的，增长量可以划分为固定的单位，即：1,2,3…… 例如：一个人的身高，他首先长到1.51，然后才能长到1.52，1.53……；在百度贴吧中，用户首先要有1个粉丝，其后他才能有2,3……位粉丝。

而离散变量则是通过计数方式取得的，即是对所要统计的对象进行计数，增长量非固定的，如：一个地区的企业数目可以是今年只有一家，而第二年开了十家；一个企业的职工人数今年只有10人，第二年一次招聘了20人等。

4.3.3 变量类型的转化:

只能由高级向低级转化,不能作相反方向的转化

连续型→有序→分类→二值

离散型变量常常在适当的变换或连续性校正后，借用连续型变量或有序变量的方法来分析

参考资料

中山大学课程《医学统计学》方积乾
《统计学》南京财经大学陈耀辉、王芳、王庚、韩中、张艳芳、黄莉芳
分类变量的分析（博文中提到的公式与图片参见该文库）
离散变量
连续变量

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn