距离[1]--个体之间距离的度量方法

进行聚类分析首先要建立在各个样品(或变量)之间“距离”的精确度量的基础 根据变量类型的不同,“距离”的度量方式也不相同,下面分别叙述: 1. 针对连续变量的距离测度

欧氏距离(Euclidean distance): 两个体p个变量值之差平方和的平方根

2.针对计数变量的距离测度

所谓计数变量,是指个体在某个分类变量上的频数。针对计数变量的距离测度方法主要有卡方距离和Phi方距离。

3.针对二值变量的距离测度

如果个体的k个变量都是二值变量,则个体之间的距离测度将基于一个如下表所示的2*2的列联表。该表是根据原始数据转换而来的两个体取值的交叉列联表。表中, a+b+c+d等于变量的总个数,a为两个体取值都为1的变量个数,b为个体x取值为0, 而个体y取值为1的变量个数,c为个体 x取值为1而个体y取值为0的变量个数,d为两 个体取值都是0的变量个数。显然,a+d的比重描述了两个体之间的相似程度,而b+c的 比重反映了两个体之间的差异程度。

参考资料:

第 10 章 聚类分析(超级赞的一个资料)http://pan.baidu.com/s/1eQzknXC

个人公众号,比较懒,很少更新,可以在上面提问题:

更多精彩,请移步公众号阅读:

Sam avatar
About Sam
专注生物信息 专注转化医学