【1.1】变量

数据分为不可测量的数据和可测量的数据,

一.分类变量

这里的分类跟下面的有区别,先把它放在这吧

定性变量(Qualitative variable):

(i) 分类变量(Categorical variable)
名义变量(Nominative variable)
水平 (Level):代码(Code) 用1、2、3、4、5等表示水平
二分类变量(Binary variable) 假变量(Dummy variable) 

(ii) 有序变量 (Ordinal variable)
种种可能的“取值”中自然地存在着次序

分类变量有有序变量(Ordinal variable)、无序变量和二分类(Binary variable),其中有序和无序都是多分类

  • 有序变量(Ordinal variable): 高血压1期、II期、III期属于有序变量同时也属于等级资料;疾病程度(轻度,中度,重度) 无序变量:汉族、回族、哈组;工人、农民、教师这样得属于无序变量,
  • 二分类变量(Binary variable):男性、女性; 死亡、存活

在分析方法中差别性检验中,二分类变量和无序变量都能用卡方检验,只不过一个是四格表卡方一个是RXC列联卡方,而有序变量也就是等级资料就得用秩和检验

在多元回归时,有序变量和二分类变量都是赋值1、2、3或0、1求得一个OR或RR值,而无序资料就必须要设置哑变量(虚拟变量,Dummy variable),例如职业工人、农民、教师。你计算得时候赋值为工人=1、农民=2、教师=3,如果你当成连续得变量去计算那么得到一个OR或RR值,解释为每增加一个等级发生某病得危险性增加多少倍。那么在无序变量就意味着工人增加一个等级,这是不可能的。因为这样得变量各等级之间不存在1、2、3的数学关系。

在有序变量中,我们可以多元回归来检验假设,运用的原理时最小二乘法。在无序变量中,我们必须引用哑变量(虚拟变量)来实现logistic回归。在运用logistics回归分析之前我们必须先要理解虚拟变量。

下面的重点就是关于虚拟变量的讲解。

1.虚拟变量的含义

虚拟变量是用以反映质的属性的一个人工变量,取值为 0 或 1,通常记为 D(Dummy Variable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。(注意:虚拟变量D只能取0或1两个值,即属性之间不能运算!对基础类型或否定类型设 D=0对比较类型或肯定类型设 D=1)如1 男性;D = 0 女性

但是, 虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素。例如:在建立储蓄函数时,“年龄”是一个重要的解释变量。虽然“年龄”是一个数量因素,但为了方便也可以用虚拟变量表示。例如:可以把居民分为两个年龄组:第一组:20~35岁的居民,第二组:35~60岁的居民,用“1”表示第一年龄组;“0”表示第二年龄组,就可以估计年龄对储蓄的影响。

2.虚拟变量的设置规则

(1).两个属性的表示法

如性别有两个属性:用 Di 表示。 即:两个属性引入一个变量即可!

(2).多个属性的表示法。假设学历有四个属性:博士、硕士、本科、本科以下等,则 四个属性3个变量。

变量 属性 D1 D2 D3 博士 1 0 0 硕士 0 1 0 本科 0 0 1 本科以下 0 0 0

即:m个属性引入(m-1)个变量即可

(3).多个因素各两个属性的表示法。如需要同时表示城乡差别和性别差别

D1 D2 城市男性 1 1 城市女性 1 0 农村男性 0 1 农村女性 0 0

3、分类变量的作用

  1. 可以描述和测量定性因素的影响

  2. 分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。

  3. 检验不同属性类型对因变量的作用例如工资模型中的文化程度、季节对销售额的影响。

  4. 提高模型的精度

4、 分类变量的建立模型。

A.解释变量中只有虚拟变量。如:调查某地区性别与收入之间的关系,可以用模型表示如下: Yi =α+βDi + ui Yi代表收入,Di为虚拟变量

B.解释变量中既有虚拟变量又有定变量。如研究消费水平与居民收入的关系时,还要考虑城乡居民消费水平的差异,消费函数可设为: Yi=α0+α1Di+βXi+ ui Yi 为消费水平,Xi 为居民收入,Di为虚拟变量。

假如还要考虑男女消费水平的差异,消费函数为:

Yi =α0+α1D1i+α2D2i+βXi+ui

Yi 为消费水平,Xi 为家庭收入,D1i和D2i为虚拟变量。

虚拟变量陷阱

如某些商品的销售量有季节性,假设销售函数为:

当我们引入4个虚拟变量出现了完全多重共线性的问题! OLS(线性回归法)不能使用!,这就是虚拟变量陷阱问题。所以对于具有m个属性的虚拟变量:若模型中含有截距项,引入 m-1个虚拟变量;若模型中不含有截距项,引入 m 个虚拟变量。

5.无序变量分析工具——LOGISTIC

该法研究是 当 y 取某值(如y=1)发生的概率(p)与某暴露因素(x)的关系。 P(概率)的取值波动0~1范围。基本原理:用一组观察数据拟合Logistic模型,揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。如图;

它的图像是一条S型曲线,有下列特征:

(1)概率0≤pi=E(Yi︱Xi)≤1, 解决了条件概率有可能大于1或小于0的问题;

(2)当Xi→+∞时,pi →1,当Xi→-∞时, pi →0, pi随Xi变化而变化,且变化速率不是常数,更加符合实际情况

对于这个方程我们应该了解到

1.变量的取值logistic回归要求应变量 (Y)取值为分类变量(两分类或多个分类) 自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。可有m个自变量X1, X2,… Xm

一个自变量与Y关系的回归模型如:y:发生=1,未发生=0 x 有=1无=0,记为p(y=1/x)表示某暴露因素状态下,结果y=1的概率(P)模型

通过取对数得到

注:就建立了线性关系。如果是多个变量的话,方程应为

Β0(常数项):暴露因素Xi=0时,个体发病概率与不发病概率之比的自然对数比值。

B1的含义:某危险因素,暴露水平变化时,即Xi=1与Xi=0相比,发生某结果(如发病)优势比的对数值。

P1(y=1/x=1)的概率 P0(y=1/x=0)的概率

最后,参数检验:一般有似然比检验(likehood ratio test),比分检验(score test)Wald检验( wald test),在我们用SPSS分析数据后。会出现几个表,我们应该看懂这个表Variables in the Equation 里面的东西。它含有wald:检验因子;df:自由度;sig:显著性检验;EXP(B):OR值。我们主要判断P值是否大于0小于0.05,若在这范围内,就表示有自变量和应变量是有关系的。

二、定量变量(Quantitative variable)

变量按变量值是否连续分为:

  1. 连续变量
  2. 离散变量

1、离散变量和连续变量

离散变量(discrete variable)

离散变量是指其数值只能用自然数整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.

性质:符号x如果能够表示对象集合S中的任意元素,就是变量。如果变量的域(即对象的集合S)是离散的,该变量就是离散变量;如果它的域是连续的,它就是连续变量。

对离散变量,如果变量值的变动幅度小,就可以一个变量值对应一组,称单项式分组。如居民家庭按儿童数或人口数分组,均可采用单项式分组。

离散变量如果变量值的变动幅度很大,变量值的个数很多,则把整个变量值依次划分为几个区间,各个变量值则按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。

也就是说,离散变量根据情况既可用单项式分组,也可用组距式分组。在组距式分组中,相邻组既可以有确定的上下限,也可将相邻组的组限重叠。

连续变量(continuous variable

在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得

连续变量由于不能一一列举其变量值,只能采用组距式的分组方式,且相邻的组限必须重叠。如以总产值、商品销售额、劳动生产率、工资等为标志进行分组,就只能是相邻组限重叠的组距式分组

“连续”: 变量可在实数轴上连续变动

变通: 红细胞记数也视为连续型变量(一个、两个、三个之间的差别并 不重要)

2、 区分方法

连续变量与离散变量的简单区别方法:连续变量时一直叠加上去的,增长量可以划分为固定的单位,即:1,2,3…… 例如:一个人的身高,他首先长到1.51,然后才能长到1.52,1.53……;在百度贴吧中,用户首先要有1个粉丝,其后他才能有2,3……位粉丝。

而离散变量则是通过计数方式取得的,即是对所要统计的对象进行计数,增长量非固定的,如:一个地区的企业数目可以是今年只有一家,而第二年开了十家;一个企业的职工人数今年只有10人,第二年一次招聘了20人等。

三、变量类型的转化:

只能由高级向低级转化,不能作相反方向的转化

连续型→有序→分类→二值

离散型变量常常在适当的变换或连续性校正后,借用连续型变量或有序变量的方法来分析

参考资料:

分类变量的分析 http://wenku.baidu.com/link?url=kgJP11Zx7IlunnmRDflYkcS5iQ5z1P3OoYCID2iCRO3VkGe8FdzcWMRENbF-LMgnppErfNilRDL4cD5JicSPt0BMAUgMCDodiJ8lWAULDlm(博文中提到的公式与图片参见该文库)

http://baike.baidu.com/view/2650458.htm?fr=aladdin

http://baike.baidu.com/link?url=pYUj4ugvNBvll9bm9bwDMLU_dWiKDP49KRcfRAf2lZdU10TV0Navfq2a4unFf1JT

中山大学课程 《医学统计学》方积乾

个人公众号,比较懒,很少更新,可以在上面提问题:

更多精彩,请移步公众号阅读:

Sam avatar
About Sam
专注生物信息 专注转化医学