异常值(离异值)检测

在处理实验数据的时候,我们常常会遇到个别数据值偏离预期或大量统计数据值结果的情况,如果我们把这些数据值和正常数据值放在一起进行统计,可能会影响实验结果的正确性,如果把这些数据值简单地剔除,又可能忽略了重要的实验信息。这里重要的问题是如何判断异常值,然后将其剔除。判断和剔除异常值是数据处理中的一项重要任务,目前的一些方法还不是十分完善,有待进一步研究和探索。
继续阅读“异常值(离异值)检测”

变量(3)–离散随机变量与分布

定义:

若随机变量X只取有限多个可列无限多个值,则称X为离散型随机变量。比如投一个色子出现的点数X,取值范围是{1,2,3,4,5,6};110报警台一天接到的报警次数Y,取值范围为{0,1,2……}

设X为离散型随机变量,它的一切可能取值为X1,X2,……,Xn,……,

p(xn)=P{X=xn,n=1,2

这个函数为随即变量X的概率函数,又称为X的概率分布,简称分布

继续阅读“变量(3)–离散随机变量与分布”

显著性检验–秩和检验

秩和检验,Wilcoxon-Matt-Whitney test (or Wilcoxon rank sum test, orMann-Whitney U-test) 用于比较两个并不满足正态分布群组的均值比较:这是一个非参数检验(non-parametrical test)。其与应用于独立样本的t-test相当,但t-test需要数据为正态分布,这个检验不需要数据为正态分布。
继续阅读“显著性检验–秩和检验”

显著性检验–T检验

T检验,亦称student t检验(Student’s t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。

T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。

继续阅读“显著性检验–T检验”