【1.2】--个体之间距离的度量方法
进行聚类分析首先要建立在各个样品(或变量)之间“距离”的精确度量的基础 根据变量类型的不同,“距离”的度量方式也不相同,下面分别叙述:
1. 针对连续变量的距离测度
欧氏距离(Euclidean distance): 两个体p个变量值之差平方和的平方根
2.针对计数变量的距离测度
所谓计数变量,是指个体在某个分类变量上的频数。针对计数变量的距离测度方法主要有卡方距离和Phi方距离。
3.针对二值变量的距离测度
如果个体的k个变量都是二值变量,则个体之间的距离测度将基于一个如下表所示的2*2的列联表。该表是根据原始数据转换而来的两个体取值的交叉列联表。表中, a+b+c+d等于变量的总个数,a为两个体取值都为1的变量个数,b为个体x取值为0, 而个体y取值为1的变量个数,c为个体 x取值为1而个体y取值为0的变量个数,d为两 个体取值都是0的变量个数。显然,a+d的比重描述了两个体之间的相似程度,而b+c的 比重反映了两个体之间的差异程度。
参考资料
- 第 10 章 聚类分析(超级赞的一个资料)http://pan.baidu.com/s/1eQzknXC
这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn