【1.9】统计表与统计图

软件可以将数据转化为图表,至于图表是否正确,则由人来确定。

一、统计表(statistical table)

统计表的组成:

  • 表号及标题: 一个表号;标题简明扼要;表号及标题位于表上方中央
  • 标目: 横标目 纵标目
  • 线条 : 常用“三线表”,包括顶线、底线和纵标目分隔线。
  • 数字 : 数字准确,小数位数一致,上下对齐,不留空格
  • 备注: 对某个数字或指标加以说明

频率分布的特点是,定性变量各类别的频率之和为 100%。

二、统计图

  1. 选择合适图形
  2. 标题简明扼要,位于图的下方
  3. 有纵、横坐标轴的图形,要标明尺度
  4. 比较不同事物时,宜选用不同的线条或颜 色表示,并附 图例加以说明

1.“呆板”的饼图

“饼图”的作用是将数据划分为互有明显区别的几个组,或者叫做几个类。饼图为圆形,被划分为几个扇形块,每一块代表一个组(类)。扇形块的大小表示这类数据占总体的比例。扇形块越大,该组(类)的相对频繁程度越大。一个特定组中的对象数目称为频数。

在相对基本比例进行比较的时候,饼图有用。 当所有扇形块的大小相似时,饼图用处不大。

2.条形图

直条图是用等宽直条的高度表示相互独立的各项指标数量的大小,可描述离散型定量变量和定性变量的频率分布。

条形图中的每一个长方形代表一个特定类,长方形的长度代表某种数值。长方形越长,数值越大。所有长方形的宽度都相等,这样更容易进行比较。

对于各个类的大小比较的情况下,条形图是理想的图形,更精确。

使用百分数标度

在设计以百分数为表现内容的图形时,请考虑这样一条黄金定律:设法指出频数–伙食将频数标在图形中间,或是标在图形旁边。

使用频数标度

使用频数标度代替百分数标度,这样大家更容易看到确切的频数,进而对数值进行比较。 (不以0为起点的标度可以让数据给人不同的第一印象)

堆积条形图

针对每种游戏,用一条长方形代表这类游戏的网易玩家频数,用另一条长方形表示这类有些的不满意玩家频数。当你想比较频数时,这种图很有用,但通过这张图很难看出比例和百分数。

分段条形图

若要体现频数和百分数,可以试试“分段条形图”。

这种图用一整段长方形代表一个类,但可以按比例把证一整段长方形分割为几个小段。长方形的整体长度反映出整体频数。

类别数据和数值型数据

类别数据(定型数据)

数据被划分为各种类别,用以描述某类的性质或特征。(切莫将数据值理解为数字)

数值型数据(定量数据)

数值型数据不同,它所设计的是数字。数值型数据中的数值具有数字的意义,但还涉及计量或计数。

3.直方图 (histogram)

直方图主要用于描述连续型定量变量的频率分布

  • 横坐标:变量的组段
  • 纵坐标:频率密度(频率/组距)
  • 频率直方图的总面积为100%

直方图与条形图外观相似,但又两个重要的却别:

a. 每个长方形的面积与频数成比例;

b. 图上的长方形之间没有间隔。

特点:

a. 直方图的面积面积代表频数

b. 频数密度都指分组数据中的频数的密集度。 = 频数/组距

c. 直方图是一种专门用来体现分组数据的图形。它看起来像条形图,但每条长方形的高度等于频数密度–而不是频数。

d. 绘制直方图时,每个长方形的宽度与其分组宽度(‘组距’)成正比例。长方形按照连续的数字标度绘制。

e. 直方图中的每个组的频数通过长方形面积求出。

f. 直方图的长方形之间没有间隔。

4.累积频数图 (cumulative histogram)

累计频率分布图可用于描述连续型变量的累计频率分布

横坐标:变量的组段

纵坐标:各组段的累计频率

ECDF

5.折线图(line chart)

用线段的升降表示统计指标的变化趋势,或某现象随另一现象的变迁情况,适用于连续型变量。

能更好的体现数据趋势。

只用于展示数值型数据,不应用与类别数据。原因是,对类别数据进行比较是有意义,但为其绘制趋势线却没有意义。

6.箱式图(box plots)

箱式图可综合描述定量变量的平均水平和变异程度,还可显示数据中的离群值(outlier)或极端值(extreme case)。

7. 统计地图(statistical map)

主要用于表示某种现象在地域空间上的分布,根据不同地方某种现象的数值大小,采用不同密度的线条或不同颜色绘在地图上,有助于分析该现象的地理分布特征。

参考资料:

《深入浅出统计学》

中山大学课程 《医学统计学》方积乾

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn