【1.1.1】统计学概论
统计学是数学的一个分支,涉及数据收集,组织,分析,解释和表达。
收集数据 → 整理数据 → 分析数据 → 展现结果 → 作出决策
一、统计概念
定义
- Merriam-Webster dictionary: 将统计定义为“数学分支,处理大量数值数据的收集,分析,解释和呈现
- 统计学家亚瑟·里昂·鲍利(Arthur Lyon Bowley)将统计数据定义为“任何相互关联的调查部门的事实的数字陈述
在将统计应用于例如科学,工业或社会问题时,通常从统计学群体(Statistical population)或统计模型过程开始研究。 群体可以是多种类型,例如“所有人生活在一个国家”或“每个原子组成一个水晶”。 统计处理数据的所有方面,包括在调查和实验设计方面的数据收集计划。[1] 见概率和统计词汇表。
- 群体(population)
- 样本(sample)
在数据分析中使用了两种主要的统计方法:
- 描述性统计(descriptive statistics),使用诸如平均值或标准差等指标对样本中的数据进行汇总
- 推论统计(inferential statistics),从随机变化的数据中得出结论(例如,观察误差, 抽样变异)。
描述性统计通常涉及分布的两组属性(样本或群体):集中趋势(central tendency)( 或位置)试图表征分布的中心或典型值,而分散(dispersion)(或可变性)表征分布成员离开其中心和彼此的程度。
数学统计的推论是在概率论(probability theory)的框架下进行的,概率论涉及随机现象的分析。
统计数据可以说是在古代文明中开始的,至少可以追溯到公元前5世纪,但直到18世纪它才开始从微积分和概率论中吸取更多。 近年来,统计数据更多地依赖于统计软件来进行描述性分析等测试
统计分析主要包括两个部分,也是统计学最厉害的两个点,统计描述和统计推断。
- 统计描述:用统计指标以统计表和统计图,对资料的统计数量特征及分布规律进行测定和描述。
- 统计推断:用样本信息推断总体特征,又分为两个部分,参数估计和假设检验。
- 参数估计:由样本相应指标推断总体相应指标,包括点估计和区间估计。
- 假设检验:用样本差异来估计总体之间是否存在差异。
二、统计包含的内容
2.1 数据采集 ( Data collection )
抽样(Sampling)
当无法收集统计数据时,统计人员通过开发特定的实验设计和调查样本来收集数据。 代表性抽样确保推论和结论可以合理地从样本扩展到整个群体。 实验研究(experimental study )包括对所研究的系统进行测量,操纵系统,然后使用相同的程序进行额外的测量以确定操作是否已经修改了测量值。 相反,观察性研究(observational study)不涉及实验操作。
实验和观察研究 Experimental and observational studies
统计研究项目的共同目标是调查因果关系,特别是得出预测因子或自变量值对因变量的影响。有两种主要类型的因果统计研究:实验研究(experimental studies )和观察研究(observational studies)。在两种类型的研究中,观察到自变量(或变量)的差异对因变量行为的影响。两种类型的区别在于研究的实际进行方式。每个都非常有效。实验研究包括对所研究的系统进行测量,操纵系统,然后使用相同的程序进行额外的测量以确定操作是否已经修改了测量值。相反,观察性研究不涉及实验操作。相反,收集数据并调查预测变量和响应之间的相关性。虽然数据分析工具最适用于随机研究的数据,但它们也适用于其他类型的数据,如自然实验和观察研究[15] - 统计学家将使用经过修改的,更有条理的估算方法(例如,差异估计和工具变量的差异,以及产生一致估计的许多其他变量。
2.2 数据类型 Types of data
已经进行了各种尝试来产生测量水平的分类。 心理物理学家Stanley Smith Stevens定义了名义(nomina),序数(ordinal ),间隔(interval)和比例尺度( ratio scales )。
- 标称测量值(Nominal measurements)在值之间没有有意义的排序顺序,并允许任何一对一变换。
- 序数测量(Ordinal measurements)在连续值之间具有不精确的差异,但是对这些值具有有意义的顺序,并且允许任何顺序保持变换。
- 区间测量(Interval measurements )在定义的测量之间具有有意义的距离,但是零值是任意的(如在摄氏或华氏的经度和温度测量的情况下),并且允许任何线性变换。
- 比率测量(Ratio measurements)具有有意义的零值和定义的不同测量之间的距离,并允许任何重新缩放变换。
因为仅符合标称(nominal)或有序(ordinal)测量的变量不能在数值上合理地测量,所以有时它们被组合在一起作为分类变量(categorical variables),而比率(ratio)和间隔(interval)测量被组合在一起作为定量变量(quantitative variables),由于它们的数字性质,它们可以是离散的或连续的。 这种区别通常与计算机科学中的数据类型松散相关,因为二分类分类变量可以用布尔数据类型表示,在整数数据类型中具有任意指定整数的多元分类变量,以及涉及实际数据类型的连续变量 浮点计算。 但是,计算机科学数据类型到统计数据类型的映射取决于后者的哪种分类正在实施。
已经提出了其他分类。 例如,Mosteller和Tukey(1977)[18]对成绩,等级,计算分数,计数,金额和余额进行了区分。 Nelder(1990)[19]描述了连续计数,连续比率,计数比率和数据的分类模式。 另见Chrisman(1998),[20] van den Berg(1991)。[21]
从变量转换和研究问题的精确解释等问题来看,是否适合将不同类型的统计方法应用于从不同类型的测量程序获得的数据是一个问题。 “数据与他们描述的内容之间的关系仅仅反映了这样一个事实,即某些统计陈述可能具有在某些变换下不是不变的真值。无论变换是否合理,都取决于人们试图回答的问题
2.3 推论统计术语和理论 (Terminology and theory of inferential statistics )
2.3.1 统计,估算和关键数量 ( Statistics, estimators and pivotal quantities )
考虑具有给定概率分布(probability distribution)的独立同分布( independent identically distributed,IID)随机变量:标准统计推断(statistical inference )和估计理论(estimation theory)将随机样本定义为由这些IID变量的列向量给出的随机向量。[23] 被检查的群体通过可能具有未知参数的概率分布来描述。
统计量是随机变量,它是随机样本的范畴,但不是未知参数的范畴。 但是,统计的概率分布可能具有未知参数。
现在考虑未知参数的函数:估计器(estimator)是用于估计这种函数的统计量。常用的估算器包括样本均值,无偏样本方差和样本协方差。
随机变量是随机样本和未知参数的函数,但其概率分布不依赖于未知参数,称为关键量(pivotal quantity)或枢轴(pivot)。 广泛使用pivot包括z-score,卡方统计量和Student’s t-value.。
在给定参数的两个估计器之间,具有较低均方误差(mean squared error )的估计器被认为更有效。 此外,如果估计量的预期值等于所估计的未知参数的真实值,则称其为无偏,如果其预期值收敛于该参数的真值的极限,则渐近无偏。
估计器的其他期望属性包括:UMVUE估计器,其对于要估计的参数的所有可能值具有最小方差(这通常比验证效率更容易验证)和一致估计器,其以概率收敛到这样的参数的真实值。。
这仍然存在如何在给定情况下获得估计量并进行计算的问题,已经提出了几种方法:矩量法,最大似然法,最小二乘法和最近的估计方程的方法。
2.3.2 零假设和替代假设 ( Null hypothesis and alternative hypothesis )
对统计信息的解释通常可能涉及零假设的发展,这种假设通常(但不一定)变量之间不存在关系或者随着时间的推移没有发生变化
新手的最佳例证是刑事审判遇到的困境。 零假设H0断言被告是无辜的,而另一种假设H1断言被告是有罪的。 起诉书是因为怀疑有罪。 H0(现状)与H1相反并且维持,除非H1得到“超出合理怀疑”的证据支持。 然而,在这种情况下“未拒绝H0”并不意味着无罪,而仅仅是证据不足以定罪。 所以陪审团不一定接受H0但不能拒绝H0。 虽然人们不能“证明”一个零假设,但人们可以测试与功率测试的真实程度有多接近,功率测试测试II型错误。
统计学家所谓的另类假设只是一个与零假设相矛盾的假设。
2.3.3 错误 Error
标准统计程序(statistical procedure)涉及测试两个统计数据集之间的关系,或者从理想化模型中提取的数据集和合成数据。 针对两个数据集之间的统计关系提出了假设,并且将其作为两个数据集之间无关系的理想化零假设的替代方案进行比较。 使用统计测试来拒绝或反驳零假设,该统计测试在给定测试中使用的数据的情况下量化可以证明空值为假的意义。 从零假设开始,识别出两种基本形式的错误:
- 类型I错误,其中零假设被错误地拒绝给出“假阳性” ( false positive )。
- II型错误,其中零假设未被拒绝,并且错过了群体之间的实际差异,给出了“假阴性” ( false negative )。
标准偏差( Standard deviation )是指样本中的个体观察与中心值(例如样本或总体均值)不同的程度
标准误差(Standard error)是指样本均值与总体均值之间的差异估计。
统计误差(statistical error)是观察值与其预期值不同的量,残差(residual )数理统计中是指实际观察值与估计值(拟合值)之间的差
均方误差(Mean squared error )用于获得有效的估计量(efficient estimators,),这是一种广泛使用的估计量。 均方根误差(Root mean square error )就是均方误差的平方根。
许多统计方法寻求最小化残差平方和( residual sum of squares),并且与最小绝对偏差( Least absolute deviations )相比,这些被称为“最小二乘法”(“methods of least squares” ) 。 后者对于小错误和大错误给予相同的权重,而前者对较大的错误给予更大的权重。 残差平方和也是可微分的,这为回归提供了方便的属性。 应用于线性回归的最小二乘法称为普通最小二乘法,应用于非线性回归的最小二乘法称为非线性最小二乘法(non-linear least squares)。 同样在线性回归模型中,模型的非确定性部分称为误差项,干扰或更简单的噪声。 线性回归和非线性回归都在多项式最小二乘法(polynomial least squares)中得到解决,这也描述了因变量(y轴)预测中的方差作为自变量(x轴)和偏差(误差,噪声, 来自估计(拟合)曲线的干扰。
生成统计数据的测量过程也会出错。 这些错误中的许多被分类为随机(random)(噪声,noise )或系统(systematic)(偏差,bias),但是其他类型的错误(例如,错误,例如当分析师报告不正确的单位时)也可能是重要的。丢失数据或审查的存在可能导致有偏差的估计,并且已经开发出特定技术来解决这些问题。
2.3.4 区间估计 Interval estimation
大多数研究仅对部分人口进行抽样,因此结果并不能完全代表整个人口。从样本中获得的任何估计值仅接近人口值。置信区间允许统计学家表达样本估计与整个人口中真实值的匹配程度。它们通常表示为95%置信区间(Confidence intervals)。形式上,95%置信区间是这样的范围:如果在相同条件下重复采样和分析(产生不同的数据集),则间隔将包括95%的所有可能情况下的真实(人口)值。这并不意味着真值在置信区间内的概率为95%。从频率论的角度来看,这种说法甚至没有意义,因为真正的价值不是随机变量。要么真实值在给定间隔内,要么不在给定间隔内。然而,确实,在对任何数据进行采样并给出如何构建置信区间的计划之前,概率为95%,即尚未计算的区间将覆盖真实值:此时,间隔的界限是尚未观察到的随机变量。确实产生可以被解释为具有包含真值的给定概率的区间的一种方法是使用来自贝叶斯统计的可信区间:这种方法取决于解释“概率”的含义的不同方式,即作为贝叶斯概率(Bayesian probability)。
原则上,置信区间可以是对称的或不对称的。 间隔可以是不对称的,因为它作为参数的下限或上限(左侧间隔或右侧间隔),但它也可以是不对称的,因为双侧间隔是在违反估计周围的对称性的情况下构建的。 有时,渐近地达到置信区间的界限,这些用于逼近真实边界
2.3.5 Significance
统计数据很少给出分析中的问题的简单是/否类型答案。 解释通常归结为应用于数字的统计显着性水平,并且通常是指值准确拒绝零假设的概率(有时称为p值)。
标准方法[23]是针对另一种假设检验零假设。 关键区域是估计器的值集合,其导致驳斥零假设。 因此,假设零假设为真(统计显着性),则类型I误差的概率是估计量属于临界区域的概率,而类型II误差的概率是估计量不属于给定临界区域的概率 另类假设是正确的。 测试的统计功效是当零假设为假时正确拒绝零假设的概率。
参考统计显着性并不一定意味着整体结果在现实世界中是显着的。 例如,在对药物的大型研究中,可以显示该药物具有统计学上显着但非常小的有益效果,使得药物不太可能显着地帮助患者。
虽然原则上可接受的统计显着性水平可能会受到争议,但p值是允许测试拒绝零假设的最小显着性水平。 该测试在逻辑上等同于假设零假设为真,p值是概率,观察结果至少与检验统计量一样极端。 因此,p值越小,提交I类错误的概率越低。
一些问题通常与此框架相关(参见假设检验的批评):
- 具有高度统计意义的差异仍然没有实际意义,但可以适当地制定测试来解释这一点。 一种回应涉及超越仅报告显着性水平,以在报告假设被拒绝或被接受时包括p值。 然而,p值并不表示观察到的效应的大小或重要性,并且似乎也夸大了大型研究中微小差异的重要性。 一种更好且越来越常见的方法是报告置信区间。 虽然这些是通过与假设检验或p值相同的计算得出的,但它们描述了效应的大小和围绕它的不确定性。
- 转换条件的谬误,即检察官的谬误( prosecutor’s fallacy):批评的出现是因为假设检验方法迫使一个假设(零假设)受到青睐,因为正在评估的是给定零假设的观察结果的概率而不是概率。 给出观察结果的零假设。 贝叶斯推理提供了这种方法的替代方案,尽管它需要建立先验概率。
- 拒绝零假设并不能自动证明替代假设。
- 由于推论统计中的所有内容都依赖于样本大小,因此在胖尾巴下p值可能会严重错误计算
2.4 Misuse ( 滥用 )
滥用统计数据会在描述和解释中产生微妙但严重的错误 - 即使是经验丰富的专业人员也会犯这样的错误,并且在某种意义上它们会导致毁灭性的决策错误。 例如,社会政策,医疗实践以及桥梁等结构的可靠性都依赖于统计数据的正确使用
即使正确应用统计技术,对于那些缺乏专业知识的人来说,结果也很难解释。 数据趋势的统计显着性 - 衡量趋势可能由样本中的随机变化引起的程度 - 可能或可能不同意直观的意义。 人们在日常生活中正确处理信息所需的基本统计技能(和怀疑论)被称为统计素养(statistical literacy)。
人们普遍认为,通过寻找仅解释有利于主持人的数据的方式,统计知识经常被故意滥用。[28] 对统计数据的不信任和误解与引文有关,“有四种谎言:谎言,该死的谎言和统计”。 滥用统计数据既可能是无意又有意的,“统计数据如何撒谎”[28]概述了一系列考虑因素。 为了揭示统计数据的使用和滥用情况,对特定领域使用的统计技术进行了审查
避免滥用统计数据的方法包括使用适当的图表并避免偏见。[30] 如果结论被过度概括并声称其代表性超过了实际情况,通常会故意或无意识地忽略抽样偏差,就会发生误用。[31] 条形图可以说是最容易使用和理解的图表,它们既可以手工制作,也可以通过简单的计算机程序制作。[30] 不幸的是,大多数人不会寻找偏见或错误,所以他们不会被注意到。 因此,人们可能经常相信某些事情是真实的,即使它没有得到很好的代表。[31] 为使从统计数据收集的数据可信和准确,所采集的样本必须代表整体。[32] 根据赫夫的说法,“样本的可靠性可以被[偏见]破坏……让自己有一定程度的怀疑
为了帮助理解统计数据,哈夫提出了在每种情况下要问的一系列问题:
- 谁这么说? (他/她有斧头要研磨吗?)
- 他/她怎么知道的? (他/她是否有资源了解事实?)
- 少了什么东西? (他/她是否给我们一个完整的图片?)
- 有人改变了主题吗? (他/她是否为我们提供了错误问题的正确答案?)
- 是否有意义? (他/她的结论是否合乎逻辑,与我们已经知道的一致?)
误解:相关性 ( Misinterpretation: correlation )
相关概念尤其值得注意,因为它可能导致混淆。 数据集的统计分析经常表明,所考虑的人口的两个变量(属性)往往会一起变化,就好像它们是相互关联的一样。 例如,一项同样关注死亡年龄的年收入研究可能会发现穷人的生命往往比富裕人群短。 这两个变量被认为是相关的; 然而,它们可能是也可能不是彼此的原因。 相关现象可能是由第三种先前未被考虑的现象引起的,称为潜伏变量或混杂变量。 因此,无法立即推断出两个变量之间存在因果关系
参考资料
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn