【1.1.4】统计总体、个体与样本

一、统计总体和个体

统计总体,简称总体(population),就是统计所要研究的事物或现象的全体,即由客观 存在的,具有某种共同特征的许多个别事物构成的整体。例如,如果我们要研究南京财经大 学全体学生的英语学习成绩时,各院系的所有学生构成统计总体,各院系每个学生均在校注 册这一共同特征成为构成这个总体的前提条件。

个体(item unit)是构成统计总体的个别事物,又称为总体单位。在上例中,南京财经 大学的每一个学生就是个体。对于不同的研究对象,个体可能是人、物,可能是企业、机构, 甚至可能是时间、地域。

再举两例:在数据集 01 中,总体就是所有的年份,而个体就是每个具体的年份;在数 据集 02 中,总体就是所有的国家,而个体就是每个国家。

学生:等等,好像这里的定义和数理统计里的不一样呀。数理统计是:如果我们要研究南 京财经大学全体学生的英语学习成绩,所有学生的英语成绩是总体,个体是每个学生的英 语成绩。而不是:总体是所有学生,个体是每个学生。

教师:是的。这里确实和数理统计中的总体定义不同。统计学里的定义强调数据所依附的 载体,成绩是考核学生得到的,所以成绩所依附的载体是学生。这样定义有它的好处,因 为以社会、经济、自然等数量方面为研究对象的统计学,把处理分析问题作为自己的重心。 如果研究学生的状态,则不仅仅是英语成绩一项,需要用一系列的数据来反映学生状态, 这时这种总体的定义就显示出了优越性。

二、总体的特点

2.1 大量性

统计研究是对事物变化发展的规律性进行分析,规律性寓于大量现象之中,只有对大量 个体进行观察和分析研究,事物发展的规律性才能得以显示。

在一个统计总体中,当总体包含的个体是有限的,我们称之为有限总体。大部分社会经 济及自然现象都属于有限总体,要收集这类现象的统计资料既可用全面调查方法,也可用抽 样调查方法。有限总体所包含的个体数称为总体容量,通常用大写英文字母 N 表示,一般 来说,N 总是一个很大的数。当总体所包括的个体数是无限的,我们称这类现象为无限总体。 在客观现象中,无限总体极少,但也存在,如昼夜连续生产的某产品就构成无限总体。我们 不可能对无限总体进行全面调查,只能用抽样调查。

2.2 同质性

总体中的每一个个体都必须具有某个相同的性质,才能将它们组合成一个总体,否则由 个体得到的综合信息也会失去意义,甚至掩盖被研究现象的真相。例如,商业企业作为总体,是因为每个商业企业都是从事商业流通活动的个体,具有相同的经济职能,各个商业企业合 计的销售额、利润都是有意义的,反映的是商业企业的经营状态,但如果我们将一些工业企 业的销售额、利润也加入其中,那么合计数也就不再能够反映商业企业的经营状态了。

2.3 差异性

个体必须在某方面是同质的,这是构成总体的前提,但在其他某些方面又必须是不相同 的,即各个个体之间必须存在差异。如果没有差异,所要研究的内容都完全一样,那就不需 要统计、不需要综合分析了,所以从这个意义上说,个体的变异性也是构成总体的必要条件。 例如,研究企业员工的收入状态,由于各个员工的收入是不同的,所以我们计算平均收入来 反映一般收入水平,计算标准差来反映职工间收入的平均差异。如果每个职工的收入都是一 样的,比如每月每人都是收入 4000 元,那么就不需要做什么统计了,因为显然平均收入就 是 4000 元,职工之间的差异为 0。

2.4 相对性

统计总体和个体不是一成不变的,二者随着研究目的和任务不同而变化。对于同一个客 观事物在某项研究中属于个体,但在另一研究中可能就成为统计总体。例如:在宁高校这个 统计总体中,在南京的每个高校都是个体,比如南京财经大学就是其中的一个个体,但要研 究一个典型高校内部的教学科研情况,如果选中了南京财经大学,那么它就成为统计总体了, 学校的各院系部或学校的每个教职工就是个体了。

三、样本

样本(sample)是指从统计总体中抽取出来作为代表这一总体的、由部分个体组成的样 本总体,其目的是用来推断总体。样本代表总体的程度越高,由样本计算的指标与总体指标 的误差就越小。因此总希望样本具有较高的代表性。遵循随机原则的抽样,能够排除主观因 素的影响,保证取样的客观性;采用非随机原则的抽样,有时会更快捷、更经济,只是抽出 的样本无法计算误差。

构成样本的个体数目称为样本容量。通常用小写英文字母 n 表示,相对于 N 而言,n 一 般只是一个很小的数。比如想了解流水线上产品的合格率,我们会随机抽选 100 个产品进行 检验,这 100 个产品就构成了一个样本,样本容量是 100。我们会根据对这 100 个产品检验 的结果,计算出样本对应的合格率,并用它来代表总体的合格率,这就是我们第五章要讲到 的点估计。

在实际工作中,总体又称为全及总体,由于样本是从总体抽取出来并代表总体的,总体 又称为母体,样本则称为子体或子样。

参考资料

  • 《统计学》 南京财经大学 陈耀辉、王芳、王庚、韩中、张艳芳、黄莉芳
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学