马氏距离(Mahalanobis Distance)

一、引子

上图有两个正态分布的总体,它们的均值分别为a和b,但方差不一样,则图中的A点离哪个总体更近?或者说A有更大的概率属于谁?显然,A离左边的更近,A属于左边总体的概率更大,尽管A与a的欧式距离远一些。这就是马氏距离的直观解释。

二、概念

马氏距离是基于样本分布的一种距离。物理意义就是在规范化的主成分空间中的欧氏距离。所谓规范化的主成分空间就是利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化,形成新的坐标轴。由这些坐标轴张成的空间就是规范化的主成分空间。

用来度量一个样本点P与数据分布为D的集合的距离。

假设样本点为:

$$ \underset{x}\rightarrow = (x_{1},x_{2},x_{3},...,x_{N})^{T} $$

数据集分布的均值为:

$$ \underset{μ}\rightarrow = (μ_{1},μ_{2},μ_{3},...,μ_{N})^{T} $$

协方差矩阵为S。

则这个样本点P与数据集合的马氏距离为:

$$ D_{M}{ (\underset{μ}\rightarrow) } = \sqrt{ (\underset{x}\rightarrow - \underset{μ}\rightarrow)^{T}S^{-1}(\underset{x}\rightarrow - \underset{μ}\rightarrow) } $$

马氏距离也可以衡量两个来自同一分布的样本x和y的相似性:

$$ d(\underset{x}\rightarrow ,\underset{y}\rightarrow ) = \sqrt{ (\underset{x}\rightarrow - \underset{y}\rightarrow)^{T}S^{-1}(\underset{x}\rightarrow - \underset{y}\rightarrow) } $$

当样本集合的协方差矩阵是单位矩阵时,即样本的各个维度上的方差均为1.马氏距离就等于欧式距离相等

当协方差矩阵是对角矩阵时,即样本数据在各个维度上的方差可能不为1.此时

$$ d(\underset{x}\rightarrow ,\underset{y}\rightarrow ) = \sqrt{ \sum \limits_{i=1}^{N} \frac{ (x_{i}-y_{i})^{2} }{s_{i}^{2}} } $$

可以看做是标准化了的欧氏距离。其中,si为样本数据在第i个维度上的标准差。

三、马氏距离的特点

  • 量纲无关,排除变量之间的相关性的干扰;
    • 想判断一个点是否属于一个集合,首先计算出这个集合的中心点(通过计算这个集合中所有样本的均值向量可以得到),然后求出这个点到中心点的距离,若大于一个阈值则认为不属于这个集合。但是这样有个问题,有的集合包含的范围比较大,待分类样本虽然离此集合中心点较其他集合的中心点远,但实际上属于这个集合,这就是尺度对分类结果的影响。为了消除这个影响,计算出集合中所有数据点到中心点的平均距离,这样,范围大的集合计算出来的平均距离就会较范围小的集合平均距离大,这个平均距离就是下式中的分母:标准差。
  • 马氏距离的计算是建立在总体样本的基础上的,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;
  • 计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。

四、例子

如果我们以厘米为单位来测量人的身高,以克(g)为单位测量人的体重。每个人被表示为一个两维向量,如一个人身高173cm,体重50000g,表示为(173,50000),根据身高体重的信息来判断体型的相似程度。

我们已知小明(160,60000);小王(160,59000);小李(170,60000)。根据常识可以知道小明和小王体型相似。但是如果根据欧几里得距离来判断,小明和小王的距离要远远大于小明和小李之间的距离,即小明和小李体型相似。这是因为不同特征的度量标准之间存在差异而导致判断出错。

以克(g)为单位测量人的体重,数据分布比较分散,即方差大,而以厘米为单位来测量人的身高,数据分布就相对集中,方差小。马氏距离的目的就是把方差归一化,使得特征之间的关系更加符合实际情况。

图(a)展示了三个数据集的初始分布,看起来竖直方向上的那两个集合比较接近。在我们根据数据的协方差归一化空间之后,如图(b),实际上水平方向上的两个集合比较接近。

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学