【1.1.3】统计数据及其分类(变量分类)

一、认识数据

现代汉语词典对数据的解释是:进行各种统计、计算、科学研究或技术设计等所依据的 数值。下面我们提供四个数据集,让大家对数据有一个直观的了解。

1.1 中国历年主要宏观经济指标数据集(数据集 01, SPSS 数据文件编号:data1_01)

中国历年主要宏观经济指标数据集记载了中国从 1952 年至 2010 年各主要宏观经济指 标(资料来源:根据历年《中国统计年鉴》和国家外汇管理局发布的数据整理)。指标包括: 国民总收入、国内生产总值、各个产业的增加值、财政总收支总量指标,它们都是按人民币 计价,单位为:亿元;人均 GDP,单位为:元/人;外汇储备以亿美元计价。图 1.1 是该数据 集的部分截图。

1.2 1995 年世界各国基本情况数据集(数据集 02, SPSS 数据文件编号:data1_02)

1995 年世界各国基本情况数据集记载了 1995 年 109 个国家主要社会经济指标(资料来 源:根据 SPSS 自带演示数据库整理)。指标包括:国家名称、人口(千人)、人口密度(人 /每平方公里)、城市人口比重(%)、宗教信仰、期望寿命(分男、女)、识字率(分男、 女)、人口增长率(%)、婴儿死亡率(‰)、人口出生率(‰)、死亡率(‰)、人均 GDP (美元/人)、地区类型分六类(1-OECD 国家、2-东欧、3-太平洋、亚洲、4-非洲、5-中东、 6-拉丁美洲)等等。图 1.2 是该数据集的部分截图。

1.3 公司人力资源部数据集(数据集 03, SPSS 数据文件编号:data1_03)

公司人力资源部数据集记载了该公司工作年限在 5 年以上的 470 名员工受教育、考评 与薪金的相关信息。有关信息说明如下:性别中“m”表示男性员工,“f” 表示女性员工;出 生日期中的“******”表示该数据没有收集到;教育程度是指员工接受教育的年数;按工作岗 位将员工分为“基本生产员工、服务与辅助生产员工、技术与管理员工”分别用“1、2、3”表 示;2009-2012 年三年的考评按“优、良、中、合格、不合格”五个等级进行;薪水是指员工 现在的年薪;初薪是指员工到公司的第一年薪水;员工中少数民族用“1”表示,非少数民族 用“0”表示。图 1.3 是该数据集的部分截图。

1.4 企业流水线上的抽样数据集(数据集 04, SPSS 数据文件编号:data1_04)

工厂流水线上的抽样数据集记载了一个车间 2012 年一月份每天在 9:00、11:00、14: 00、16:00 四次采样的测量数据(单位:克)以及对产品包装合格情况的检验数据,图 1.4 是该数据集的部分截图。

二、数据分类

我们从下面的例子来看看数据的衡量尺度。南京是著名的“火炉”城市,为避夏季的酷热, 多家旅行社推出了“南京周边一日游”,有许多市民参加了,旅游结束后,他们被要求填下面 的一张调查表:

这张调查表中显示的数据类型是:

2.1 分类数据(categorical data)

分类数据是对事物进行分类的结果,数据的主要特征是采用文字、数字的代码和其他符 号对事物进行简单的分类。比如,对人口按性别、民族、行政区划和婚姻状况等做归类统计,对企业按照经济性质进行分类。使用分类数据时,各个类别只是一个名称而已,类别之间的 关系不作任何的假定。在实际中,为便于计算机识别和信息传输,对于分类性质的统计数据, 人们往往给每一个类别赋予数字代码。例如,男性用 1 表示,女性用 0 表示,但这就好像给 商品贴上标签一样,仅是示意性的,数字代码不可以直接进行数字的运算。调查表中问题一 所提供的数据就属这类。

分类数据以定类尺度(nominal scale)来衡量。数据集 02 中的“国家”、“信仰宗教”和“地 区类型”都是这类数据。

2.2. 顺序数据(rank data)

顺序数据,也可称为等级数据,也是对事物进行分类的结果,只是这些分类在语义上表 现出明显的顺序或等级关系,例如,学生的成绩分为优秀、良好、中等、及格和不及格;产 品的质量可以分为优等品、合格品和不合格品;用户的满意程度可以分为很满意、满意、不 满意和很不满意。顺序数据比分类数据含有的信息量更多,能够进行差别和好坏的比较,但 差别和好坏的程度,仍然无法给出一个具体的评价尺度。调查表中问题二所提供的数据就属 这类。

顺序数据以定序尺度(ordinal scale)来衡量。数据集 03 中的三年的考评情况就是这类 数据。

由于分类数据和顺序数据都说明的是事物的品质特征,通常用文字来表述,其结果均表 现为类别,因此也把它们统称为定性数据或品质数据。

2.3. 数值型数据(metric data)

数值型数据是使用自然或度量衡单位对事物进行测量的结果,其结果表现为具体数值。 它说明的是现象的数量特征,通常是用数值来表现,因此也称为定量数据或数量数据,例如 考试成绩用百分制来表示;人的年龄用周岁来表示;产品的产量用件、箱和吨等来表示;各 个数据之间不仅可以对比大小反映差别,还可以计算各种平均数。调查表中问题三、四所提 供的数据就属这类。

数值型数据有两种衡量尺度:一是定距尺度(interval scale),这种尺度的每一间隔是相 等的,只要给出一个度量单位,就可以准确地指出两个计数之间的差值,如南京的最高温度 是 40°C,溧阳天目湖的最高温度是 33°C,二者相差 7°C,这类数据可以进行有意义的加减 运算;二是定比尺度(ratio scale),这种尺度可以准确地计量两个数值之间的倍数,如市民 甲这次旅游花费了 200 元,市民乙花费了 100 元,则市民甲比市民乙多化了一倍的钱,显然 这类数据可以进行有意义的乘除运算。很多经济变量都属于这种类型,如产品产量、销售额、 固定资产投资、居民收入、消费支出、银行贷款余额等。

区别这两类数据的显著特征是:用定比尺度测定的数值型数据有一个绝对固定的“零点”, “0”表示的是数值,即“没有”如花费是“0”,则表示没有花费;而定距尺度测定的数据的“0”, 表示的是一种水平,比如温度为“0”,不是说没有温度,而是温度在“0”这样的一个水平上。

数据集 01 中的所有数据、数据集 02 中的“人口”、“人口密度”、“男、女期望寿命”就都 是定比尺度数据。

三、其他数据分类

当然,还有其他类型的数据:

观察数据集 01 与数据集 02,前者以时间为序列示被描述的对象;后者是按国名顺序列 示被描述的对象,而时间都固定在 1995 年。我们把以时间为序排列的数据称为时间序列数 据,而在同一时间层面上显示的数据称为截面数据。这两类数据在计算描述统计量和构建模 型时都有所区别。

3.1 时间序列数据(time series data)

是在不同时间上收集到的数据,它所描述的是现 象随时间而变化的情况,如 1952—2011 年我国各年的人口总数、1952—2011 年我国历年国 内生产总值数据都属时间序列数据。

3.2 截面数据(cross-sectional data)

是在相同或近似相同的时间点上收集的数据,它 所描述的是现象在某一时刻或某一时间段的变化情况,如 2011 年我国各地区的人口数、2011 年我国各地区的国内生产总值数据都属截面数据。

3.3 面板数据(panel data)

是对若干个单位在不同时间进行重复跟踪调查所形成的数。 例如,我们连续 20 年收集得到的企业工人的工资、受教育程度和就业情况的数据。

四、变量及其分类

统计研究中,变量(variable)是一个非常重要的概念。变量是相对于常量(constant) 而言的,如果一个企业有 1000 名职工,这是一个固定的数目,就是常量,也可称常数。如 果想知道今天在岗有多少职工,这就不一定了,可能是 999 人,也可能是 998 人,因为有可 能有请病假的,也有可能有请事假的,这样“在岗人数”就是一个变量,它是现象本身所固有 的、随条件变化而变化的量。变量有变量名和变量值,如 2011 年中国国内生产总值 471564 亿元人民币,则 2011 年中国国内生产总值是变量名,471564 亿元人民币是变量值。变量常 分为:

4.1. 自变量和因变量

自变量(independent variable)是自身变化会引起其他变量变化的量;因变量(dependent variable)是受其他变量影响而变化的量。如一个国家的消费水平受这个国家的生产水平的 影响,因此,人均国内生产总值是自变量,人均消费金额是因变量。这对概念多在相关和回 归分析中使用。

4.2 确定性变量和随机性变量

确定性变量(Deterministic variable)是受确定性因素影响的变量,这种影响变量值变化 的因素是明显的、可解释的、人为的或者受人控制的,其影响变量值的大小、方向都可以确 定。如产品总成本的变化受产品产量和单位成本两个因素的影响,而这两者都是人为可以控 制的变量,并且对生产总成本影响的大小和方向也是确定的。随机变量(random variable) 是受随机性因素影响的变量,所谓随机性因素,是指各种不确定的、偶然性的因素,这种因 素对变量影响的大小和方向都是不确定的,通常是微小的。如流水线上生产零件,即使在看 似完全相同的生产条件下,零件的尺寸也会存在差异,究其原因可能是电压的高低、气温、湿度的变化,甚至是操作者的情绪。统计学研究的变量主要是随机变量。

4.3. 分类变量与定量变量

数据分为不可测量的数据和可测量的数据,

4.3.1 分类变量

这里的分类跟下面的有区别,先把它放在这吧

定性变量(Qualitative variable):

(i) 分类变量(Categorical variable)
名义变量(Nominative variable)
水平 (Level):代码(Code) 用1、2、3、4、5等表示水平
二分类变量(Binary variable) 假变量(Dummy variable) 

(ii) 有序变量 (Ordinal variable)
种种可能的“取值”中自然地存在着次序

分类变量有有序变量(Ordinal variable)、无序变量和二分类(Binary variable),其中有序和无序都是多分类

  • 有序变量(Ordinal variable): 高血压1期、II期、III期属于有序变量同时也属于等级资料;疾病程度(轻度,中度,重度) 无序变量:汉族、回族、哈组;工人、农民、教师这样得属于无序变量,
  • 二分类变量(Binary variable):男性、女性; 死亡、存活

在分析方法中差别性检验中,二分类变量和无序变量都能用卡方检验,只不过一个是四格表卡方一个是RXC列联卡方,而有序变量也就是等级资料就得用秩和检验

在多元回归时,有序变量和二分类变量都是赋值1、2、3或0、1求得一个OR或RR值,而无序资料就必须要设置哑变量(虚拟变量,Dummy variable),例如职业工人、农民、教师。你计算得时候赋值为工人=1、农民=2、教师=3,如果你当成连续得变量去计算那么得到一个OR或RR值,解释为每增加一个等级发生某病得危险性增加多少倍。那么在无序变量就意味着工人增加一个等级,这是不可能的。因为这样得变量各等级之间不存在1、2、3的数学关系。

在有序变量中,我们可以多元回归来检验假设,运用的原理时最小二乘法。在无序变量中,我们必须引用哑变量(虚拟变量)来实现logistic回归。在运用logistics回归分析之前我们必须先要理解虚拟变量

下面的重点就是关于虚拟变量的讲解。

虚拟变量的含义

虚拟变量是用以反映质的属性的一个人工变量,取值为 0 或 1,通常记为 D(Dummy Variable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。(注意:虚拟变量D只能取0或1两个值,即属性之间不能运算!对基础类型或否定类型设 D=0对比较类型或肯定类型设 D=1)如1 男性;D = 0 女性

但是, 虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素。例如:在建立储蓄函数时,“年龄”是一个重要的解释变量。虽然“年龄”是一个数量因素,但为了方便也可以用虚拟变量表示。例如:可以把居民分为两个年龄组:第一组:20~35岁的居民,第二组:35~60岁的居民,用“1”表示第一年龄组;“0”表示第二年龄组,就可以估计年龄对储蓄的影响。

虚拟变量的设置规则

(1).两个属性的表示法

如性别有两个属性:用 Di 表示。 即:两个属性引入一个变量即可!

(2).多个属性的表示法。假设学历有四个属性:博士、硕士、本科、本科以下等,则 四个属性3个变量。

变量 属性
    D1 D2 D3
博士 1 0 0
硕士 0 1 0
本科 0 0 1
本科以下 0 0 0

即:m个属性引入(m-1)个变量即可

(3).多个因素各两个属性的表示法。如需要同时表示城乡差别和性别差别

D1 D2
城市男性 1 1
城市女性 1 0
农村男性 0 1
农村女性 0 0
分类变量的作用
  1. 可以描述和测量定性因素的影响
  2. 分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。
  3. 检验不同属性类型对因变量的作用例如工资模型中的文化程度、季节对销售额的影响。
  4. 提高模型的精度
分类变量的建立模型。

A.解释变量中只有虚拟变量。如:调查某地区性别与收入之间的关系,可以用模型表示如下: Yi =α+βDi + ui Yi代表收入,Di为虚拟变量

B.解释变量中既有虚拟变量又有定变量。如研究消费水平与居民收入的关系时,还要考虑城乡居民消费水平的差异,消费函数可设为: Yi=α0+α1Di+βXi+ ui Yi 为消费水平,Xi 为居民收入,Di为虚拟变量。

假如还要考虑男女消费水平的差异,消费函数为:

Yi =α0+α1D1i+α2D2i+βXi+ui

Yi 为消费水平,Xi 为家庭收入,D1i和D2i为虚拟变量。

虚拟变量陷阱

如某些商品的销售量有季节性,假设销售函数为:

当我们引入4个虚拟变量出现了完全多重共线性的问题! OLS(线性回归法)不能使用!,这就是虚拟变量陷阱问题。所以对于具有m个属性的虚拟变量:若模型中含有截距项,引入 m-1个虚拟变量;若模型中不含有截距项,引入 m 个虚拟变量。

无序变量分析工具——LOGISTIC

该法研究是 当 y 取某值(如y=1)发生的概率(p)与某暴露因素(x)的关系。 P(概率)的取值波动0~1范围。基本原理:用一组观察数据拟合Logistic模型,揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。如图;

它的图像是一条S型曲线,有下列特征:

(1)概率0≤pi=E(Yi︱Xi)≤1, 解决了条件概率有可能大于1或小于0的问题;

(2)当Xi→+∞时,pi →1,当Xi→-∞时, pi →0, pi随Xi变化而变化,且变化速率不是常数,更加符合实际情况

对于这个方程我们应该了解到

1.变量的取值logistic回归要求应变量 (Y)取值为分类变量(两分类或多个分类) 自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。可有m个自变量X1, X2,… Xm

一个自变量与Y关系的回归模型如:y:发生=1,未发生=0 x 有=1无=0,记为p(y=1/x)表示某暴露因素状态下,结果y=1的概率(P)模型

通过取对数得到

注:就建立了线性关系。如果是多个变量的话,方程应为

Β0(常数项):暴露因素Xi=0时,个体发病概率与不发病概率之比的自然对数比值。

B1的含义:某危险因素,暴露水平变化时,即Xi=1与Xi=0相比,发生某结果(如发病)优势比的对数值。

P1(y=1/x=1)的概率 P0(y=1/x=0)的概率

最后,参数检验:一般有似然比检验(likehood ratio test),比分检验(score test)Wald检验( wald test),在我们用SPSS分析数据后。会出现几个表,我们应该看懂这个表Variables in the Equation 里面的东西。它含有wald:检验因子;df:自由度;sig:显著性检验;EXP(B):OR值。我们主要判断P值是否大于0小于0.05,若在这范围内,就表示有自变量和应变量是有关系的。

4.3.2 定量变量(Quantitative variable)

变量按变量值是否连续分为:

  1. 连续变量
  2. 离散变量

变量的连续性或离散性,通常是以变量值是否可以无限分割为标准。若一个变量相邻的 两个变量值之间可以继续分割,取得新的变量值,该变量称为连续型变量(continuous variable),如道路的长度、耕地面积、粮食总产量、人的平均身高、劳动生产率等,连续型 变量通常是以测量或计算的方法取得变量值。若一个变量相邻的两个变量值之间不可能再分 割出新的变量值,该变量称为离散型变量(discrete variable),如职工人数、企业数、产品 件数等,离散型变量通常是以点数的方法取得变量值。在研究分布特征时,离散型和连续型 随机变量往往会服从不同的概率分布。

4.3.2.1 离散变量(discrete variable)

离散变量是指其数值只能用自然数整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.

性质:符号x如果能够表示对象集合S中的任意元素,就是变量。如果变量的域(即对象的集合S)是离散的,该变量就是离散变量;如果它的域是连续的,它就是连续变量。

对离散变量,如果变量值的变动幅度小,就可以一个变量值对应一组,称单项式分组。如居民家庭按儿童数或人口数分组,均可采用单项式分组。

离散变量如果变量值的变动幅度很大,变量值的个数很多,则把整个变量值依次划分为几个区间,各个变量值则按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。

也就是说,离散变量根据情况既可用单项式分组,也可用组距式分组。在组距式分组中,相邻组既可以有确定的上下限,也可将相邻组的组限重叠。

4.3.2.2 连续变量(continuous variable)

在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得

连续变量由于不能一一列举其变量值,只能采用组距式的分组方式,且相邻的组限必须重叠。如以总产值、商品销售额、劳动生产率、工资等为标志进行分组,就只能是相邻组限重叠的组距式分组

“连续”: 变量可在实数轴上连续变动

变通: 红细胞记数也视为连续型变量(一个、两个、三个之间的差别并 不重要)

4.3.2.3 区分方法

连续变量与离散变量的简单区别方法:连续变量时一直叠加上去的,增长量可以划分为固定的单位,即:1,2,3…… 例如:一个人的身高,他首先长到1.51,然后才能长到1.52,1.53……;在百度贴吧中,用户首先要有1个粉丝,其后他才能有2,3……位粉丝。

而离散变量则是通过计数方式取得的,即是对所要统计的对象进行计数,增长量非固定的,如:一个地区的企业数目可以是今年只有一家,而第二年开了十家;一个企业的职工人数今年只有10人,第二年一次招聘了20人等。

4.3.3 变量类型的转化:

只能由高级向低级转化,不能作相反方向的转化

连续型→有序→分类→二值

离散型变量常常在适当的变换或连续性校正后,借用连续型变量或有序变量的方法来分析

参考资料

  • 中山大学课程 《医学统计学》方积乾
  • 《统计学》 南京财经大学 陈耀辉、王芳、王庚、韩中、张艳芳、黄莉芳
  • 分类变量的分析 (博文中提到的公式与图片参见该文库)
  • 离散变量
  • 连续变量
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学