7. 聚类分析

一、聚类分析的概念和类型

聚类分析法(Cluster Analysis)是研究“物以类聚”的 一种现代统计分析方法,在众多的领域中,都需要采 用聚类分析作分类研究。

聚类分析的方法:

  • 系统聚类法(hclust)
  • 快速聚类法(kmeans)

二、聚类统计量

三、系统聚类法

系统聚类法的基本思想 :

先将个样品分成类,每个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有的样品归为一类为止,并把这个过程做成一张系统聚类图。

类间距离计算方法

  1. 最短距离法(single)
  2. 最长距离法(complete)
  3. 中间距离法(median)
  4. 类平均法(average) 方法
  5. 重心法(centroid)
  6. 离差平方和法(Ward

类间距离计算公式

系统聚类法过程

例7-1数据的系统聚类

系统聚类R语言步骤

  1. 计算距离阵: dist
  2. 进行系统聚类: hclust
  3. 绘制聚类图: plot
  4. 画分类框: rect.hclust
  5. 确认分类结果: cutree

###【例7.2】续例3.1,研究全国31个省、市、自治区2007年城镇居民生活消费 的分布规律,根据调查资料做区域消费类型划分。

四、kmeans聚类法

kmeans法是一种快速聚类法,这种算法 的基本思想是将每一个样品分配给最近中心 (均值)的类中。

kmeans算法以k为参数,把n个对象分为 k个类,使类内具有较高的相似度,类间的相 似度较低。

概念和原理

五、聚类分析的一些问题

系统聚类分析的特点:

  • 综合性
  • 形象性
  • 客观性

关于kmeans算法:

  • kmeans算法只有在类的均值被定义的情况下才能使用
  • 对于“噪声”和孤立点是敏感的,这种数据对均值影响极大

关于变量变换:

  • 平移变换
  • 极差变换
  • 标准差变换
  • 主成分变换
  • 对数变换

参考资料

暨南大学 王斌会老师 《多元统计分析及R语言建模》课件

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn