【1.2.4】统计分组

数据的整理,是根据统计研究的目的,对所收集到的大量、零星分散的原始资料进行 科学加工与综合,使之系统化、条理化、科学化,为统计分析提供反映事物总体综合特征资 料的工作过程。它的一般程序是:

  1. 统计数据的审核认定
  2. 数据分组
  3. 数据汇总
  4. 编制统计表
  5. 绘制统计图。

其核心则是分组。

一、数据的审定

调查资料的审定目的,就是要保证资料的准确性,尽可能地缩小调查误差。调查误差 是指经过调查所获得的统计数值与被调查对象实际数值之间的差别。调查误差有两种:一种 是登记误差,一种是代表性误差。登记误差是由于调查过程中各有关工作环节的失误而造成 的。例如,调查方案中有关规定或解释不清楚而产生歧义,或计算错误、抄录错误,或汇总 错误以及不真实填报等。代表性误差是由于非全面调查只观察总体一部分单位,这部分单位 不能完全反映总体的性质而产生的误差。

所谓审定就是对调查资料的准确性、完整性和及时性进行检查。审定可以采用计算机审定,也可以采用人工审定。

二、 数据的分组

3.1 数据分组的概念

数据分组,是指根据统计总体内在的特征与统计研究的任务需要,将统计总体按照一定的标志划分为若干组成部分的一种统计方法。

3.2 数据分组的目的

其目的是把同质总体中的具有不同性质的单位分开,把性质相同的单位合并在一起, 保持各组内数据的一致性和各组之间数据的差异性,以便进一步研究调查对象的数量表现与 数量关系,进而正确认识调查对象的本质及其规律性。例如,在我国人口普查中,作为个体 的每个人,在年龄、性别、民族、文化程度以及居住地等诸多调查标志上不完全相同。为反 映我国人口总体内部的差异、就需要按照不同的标志对全国人口进行分组。如,按性别可分 为男、女两组;按年龄、民族可划分为若干组,这就有助于对我国人口的性别、年龄、民族 等各方面的结构及其比例关系的认识。

3.3 数据分组的作用

一是区分总体类型,现象的类型是多种多样的,不同类型的现象存在本质差别,通过统 计资料的分组就可以把不同类型的现象区别开来;二是反映总体内部结构,通过分组,统计 总体被划分为若干组成部分,计算各组成部分的总量在总体总量中所占的比重,即可反映总 体结构特征与总体结构类型;三是可以分析总体在数量现象之间的依存关系,现象之间总是 相互联系、相互依存、相互制约的,分组就是要在现象的各种错综复杂的联系中,找出内在的联系和数量关系。具体作法,可将一个可变标志(自变量)作为分组标志,来观察另一个 标志(因变量)相应的变动状况。如居民家庭收入与就业人数有关密切的联系。通过分组就 可以反映这两个标志之间相互联系的程度和方向。

3.4. 数据分组的原则

要保证分组的科学性,要遵循“穷尽原则”和“互斥原则”。“穷尽原则”是指各分组的空间 必须容纳所有个体单位,即总体中的每一个个体都必须有组的归属。如劳动者按文化程度分 组,若只分为小学、中学毕业、和大学毕业三组;那么,未上过小学的以及大学以上文化程 度的劳动者就无组可归。这种分组未作到“穷尽”。互斥原则是指在特定的分组标志下,总体 中的任何一个单位不能同时归属于几个组,而只能归属于某一组。把鞋子分为男鞋、女鞋、 童鞋三类,就不符合互斥原则,因为童鞋也有男鞋与女鞋之分。

3.5. 数据分组的种类

对数据的分组是按照不同的标志进行的。分组标志则是进行分组的标准和依据。因此, 分组标志能否正确地选择,则关系到分组的科学性。为此,必须根据统计研究的目的和任务 来选择分组标志;必须在若干个可以选择的标志中,选择最能反映事物本质特征的标志作为 分组标志。

按分组标志的多少,可分为简单分组与复合分组,简单分组是按照一个分组标志对所研 究的对象进行分组。如人口按性别分为男、女两组。复合分组是按照两个或两个以上的分组 标志对所研究的对象进行分组。这种分组,先按一个分组标志对所研究对象进行分组,然后 再按第二个分组标志进一步分组,再次层叠地按第三个分组标志分成更小的组。如表 1.1 对 高校教师进行的复合分组。

按分组标志性质不同,分为品质分组和数量分组。品质分组就是选择反映事物属性差异 的品质标志进行分组,并在品质标志变异的范围内,划分各组的性质界限,把总体分为若干 性质不同的组成部分。数量分组就是选择反映事物数量差异的数量标志进行分组,并在数量 标志的变异范围内划定各组的数量界限,把总体划分为若干性质不同的组成部分。

进行分组后,统计每组所拥有的次数,再将其列成表格,就形成了次数分布,以后我们 经常会遇到这类数据形式。

参考资料

  • 《统计学》 南京财经大学 陈耀辉、王芳、王庚、韩中、张艳芳、黄莉芳
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学