统计学中的基本概念

Doc Zhou不断的给我们强调统计的重要性。不管是真明白,还是假明白其重要性,我是觉得都有必要好好整理一下相应的内容了。

一、推荐资料:

漫画统计学:日本人出的一本科普类统计学的教材,浅显易懂。
链接: https://pan.baidu.com/s/1geRkhNX 密码: dqdg

二、常见的几个概念

随机 (randomness)

概率(probability):概率分 布概 念允许我们对随机性加以限制,并赋予我们有限的能力去预测 未来的随机事件

和统计(statistics)

 

统计学分为推断统计学(所谓的统计学就是从样本推测整体的一门学科)和描述统计学(描述整体状况)

总体:真正调查对象的集合

样本:由总体中取出的部分个体所组成的集合

 

1.确认数据总类

数据分为不可测量的数据和可测量的数据

  • 分类数据:不可测量的数据,例如:性别的男女
  • 数值数据:可测量的数据,例如:身高

更多内容参考:变量(1)–分类变量

2.掌握数据整体的状态(数值数据篇)

  1. 次数分布表和直方图
    将一连串得数据可以分成几组(class),这一系列组的数据分布可以通过直方图(也叫柱状图)表示出来,
  2. 平均数
    • 算术
    • 几何
    • 调和
  3. 中位数
    具有异常大或小的数据时,与其求平均数,不如找出中位数
  4. 标准差  表现数据离散程度

3.掌握数据整体的状态(分类数据篇)

      1. 次数分布表  掌握数据的整体分布
        教师工作满意度 人数
        非常不满意 7
        不满意 13
        有时满意有时不满意 35
        满意 58
        非常满意 24
        总计 137
      2. 次数分布表

4.标准计分和离差(deviation score)

数据的标准化

标准计分=(每一个数据-平均数)/标准差

标准计分的平均数势必为0,其标准差势必为1;

标准化,可以比较满分不同的变量,或者单位不同的变量。

离差

离差=标准计分*10+50

离差的平均数为50,标准差为10

5.求机率

5.1机率密度函数(probalibility density function):

直方图中,将距离缩小至极限后,所得之曲线的公式

5.2 正太分布

正态分布:
以平均值为中心呈左右对称;收到平均值和标准差的影响
标准正太分布:平均值为0,标准差位1

5.3卡方分布(χ2分布,chi-square distribution):

定义: 设X1,X2,……Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ2=X12+X22+……+Xn2所服从的分布为自由度为n 的χ2分布.

期望E(χ2)=n   方差D(χ2)=2n

χ2分布具有可加性。若χ122(n),χ222(m),且二者相互独立,则χ12222(n+m)。

5.4 t分布

定义:设X1服从标准正态分布N(0,1),X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量t=X1/(X2/n)1/2 所服从的分布为自由度为n的t分布。

期望 E(T)=0 方差 D(T)=n/(n-2),n>2

5.5F分布

定义:设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n.

性质:

1.期望E(F)=n/(n-2),方差D(F)=n2(2m+2n-4)/m(n-2)2(m-4)

2.若F~F(m,n),则1/F~F(n,m)

3.若F~F(1,n),T~T(n),则F=T^2

5.6说明

三大抽样分布一般是指卡方分布(χ2分布)、t分布和F分布。

各个分布的应用如下:

方差已知情况下求均值是Z检验。

方差未知求均值是t检验(样本标准差s代替总体标准差R,由样本平均数推断总体平均数)

均值方差都未知求方差是X^2检验

两个正态分布样本的均值方差都未知情况下求两个总体的方差比值是F检验。

6.双变量的相关分析

  1. 相关系数:数值数据和数值数据
  2. 相关比:数值数据和分类数据
  3. 克莱姆相关系数:分类数据和分类数据

7.独立性检验

后续专门介绍

参考资料:
《漫画统计学》

《女士品茶》
http://baike.baidu.com/view/4672140.htm?fr=aladdin
http://www.cnblogs.com/end/p/3718976.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注